論文の概要: Self-Challenging Language Model Agents
- arxiv url: http://arxiv.org/abs/2506.01716v1
- Date: Mon, 02 Jun 2025 14:23:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.485619
- Title: Self-Challenging Language Model Agents
- Title(参考訳): 自己変化型言語モデルエージェント
- Authors: Yifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar,
- Abstract要約: 本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するためのセルフチェンジフレームワークを提案する。
このフレームワークは、Llama-3.1-8B-Instructの2倍の改善を実現している。
- 参考スコア(独自算出の注目度): 98.62637336505242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are quickly becoming the foundation for intelligent agents that are capable of using tools. However, training such agents is challenging because it requires human creation and annotation of a diverse set of tasks, tools, and evaluation criteria. In this paper, we propose the Self-Challenging framework for training an agent on high-quality tasks that are generated by itself. The agent first plays the role of challenger and generates a task after interacting with the given tools. The tasks take the form of a novel general class of problems termed Code-as-Task, which are defined by an instruction, a verification function and solution and failure cases which serve as tests, allowing to filter only for high-quality tasks. The agent then takes an executor role and trains on those tasks with reinforcement learning using the evaluation feedback as a reward. Evaluation on two existing multi-turn tool-use agent benchmarks, M3ToolEval and TauBench, shows the Self-Challenging framework achieves over a two-fold improvement in Llama-3.1-8B-Instruct, despite using only self-generated training data.
- Abstract(参考訳): 大規模言語モデルは、ツールを使えるインテリジェントエージェントの基盤として急速になってきている。
しかし,このようなエージェントを訓練するには,多様なタスク,ツール,評価基準の人為的作成とアノテーションが必要であるため,難しい。
本稿では,エージェントが自ら生成する高品質なタスクについて,エージェントを訓練するための自己整合フレームワークを提案する。
エージェントは最初にチャレンジャーの役割を演じ、与えられたツールと対話した後でタスクを生成する。
タスクは、Code-as-Taskと呼ばれる新しい一般的な問題のクラスであり、命令、検証関数、そしてテストとして機能するソリューションと障害ケースによって定義される。
エージェントはエグゼクタの役割を担い、評価フィードバックを報酬として、強化学習を用いてこれらのタスクを訓練する。
M3ToolEvalとTauBenchの2つの既存のマルチターンツール利用エージェントベンチマークの評価では、自己生成トレーニングデータのみを使用しながら、Llama-3.1-8B-Instructの2倍の改善が達成されている。
関連論文リスト
- Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。