論文の概要: CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification
- arxiv url: http://arxiv.org/abs/2603.01940v1
- Date: Mon, 02 Mar 2026 14:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.918413
- Title: CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification
- Title(参考訳): CoVe:Constraint-Guided Verificationによる対話型ツール利用エージェントのトレーニング
- Authors: Jinpeng Chen, Cheng Gong, Hanbo Li, Ziru Liu, Zichen Tian, Xinyu Fu, Shi Wu, Chenyang Zhang, Wu Zhang, Suiyun Zhang, Dandan Tu, Rui Liu,
- Abstract要約: textbfCoVe(textbfConstraint-textbfVerification)は、対話型ツール使用エージェントのトレーニング用に設計されたトレーニング後のデータ合成フレームワークである。
それらは、複雑な軌跡の生成をガイドし、軌道品質を評価するための決定論的検証器として機能する。
- 参考スコア(独自算出の注目度): 17.56502992098113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing multi-turn interactive tool-use agents is challenging because real-world user needs are often complex and ambiguous, yet agents must execute deterministic actions to satisfy them. To address this gap, we introduce \textbf{CoVe} (\textbf{Co}nstraint-\textbf{Ve}rification), a post-training data synthesis framework designed for training interactive tool-use agents while ensuring both data complexity and correctness. CoVe begins by defining explicit task constraints, which serve a dual role: they guide the generation of complex trajectories and act as deterministic verifiers for assessing trajectory quality. This enables the creation of high-quality training trajectories for supervised fine-tuning (SFT) and the derivation of accurate reward signals for reinforcement learning (RL). Our evaluation on the challenging $τ^2$-bench benchmark demonstrates the effectiveness of the framework. Notably, our compact \textbf{CoVe-4B} model achieves success rates of 43.0\% and 59.4\% in the Airline and Retail domains, respectively; its overall performance significantly outperforms strong baselines of similar scale and remains competitive with models up to $17\times$ its size. These results indicate that CoVe provides an effective and efficient pathway for synthesizing training data for state-of-the-art interactive tool-use agents. To support future research, we open-source our code, trained model, and the full set of 12K high-quality trajectories used for training.
- Abstract(参考訳): 実世界のユーザのニーズは複雑で曖昧であることが多いため、マルチターンのインタラクティブなツール利用エージェントの開発は難しいが、エージェントはそれらを満たすために決定論的アクションを実行する必要がある。
このギャップに対処するために,対話型ツール利用エージェントのトレーニング用に設計されたデータ合成フレームワークである \textbf{CoVe} (\textbf{Co}nstraint-\textbf{Ve}rification) を導入する。
それらは、複雑な軌跡の生成をガイドし、軌道品質を評価するための決定論的検証器として機能する。
これにより、教師付き微調整(SFT)のための高品質な訓練軌道の作成や、強化学習(RL)のための正確な報酬信号の導出が可能になる。
挑戦的な$τ^2$-benchベンチマークに対する評価は,フレームワークの有効性を示すものである。
特に、我々のコンパクトな \textbf{CoVe-4B} モデルは、Airline ドメインと Retail ドメインでそれぞれ 43.0\% と 59.4\% の成功率を達成する。
これらの結果から,CoVeは最先端の対話型ツール利用エージェントのためのトレーニングデータを効果的かつ効率的に合成するための経路を提供することが明らかとなった。
将来の研究をサポートするため、私たちは、トレーニングに使用するコード、トレーニングされたモデル、および12Kの高品質な軌道の完全なセットをオープンソース化しました。
関連論文リスト
- KARL: Knowledge Agents via Reinforcement Learning [63.627906947205624]
本稿では,強化学習による企業検索エージェントの訓練システムを提案する。
KARLBenchは、6つの異なる検索レギュレーションにまたがる多機能評価スイートである。
異種探索行動で訓練されたモデルは、どのベンチマークにも最適化されたモデルよりもかなりよく一般化されていることを示す。
論文 参考訳(メタデータ) (2026-03-05T14:30:25Z) - Guided by Trajectories: Repairing and Rewarding Tool-Use Trajectories for Tool-Integrated Reasoning [65.10602992874787]
AutoTrajはツール使用トラジェクトリの修復と報酬によってTIRを自動的に学習するフレームワークである。
実世界のベンチマークの実験では、AutoTrajの有効性が示されている。
論文 参考訳(メタデータ) (2026-01-30T14:42:04Z) - From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents [23.583947864141162]
EigenDataは階層的なマルチエージェントエンジンで、ツール基底の対話と実行可能なインスタンスごとのチェッカーを合成する。
合成データに基づいて、まずユーザモデルを微調整し、GRPOスタイルのトレーニングを適用するRLレシピを開発する。
以上の結果から,高価なアノテーションを使わずに,複雑なツールの動作をブートストラップするためのスケーラブルな経路が示唆された。
論文 参考訳(メタデータ) (2026-01-30T06:01:23Z) - ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas [13.919124676472022]
ASTRAは、ツール拡張言語モデルエージェントをトレーニングするためのエンドツーエンドフレームワークである。
ASTRAはスケーラブルなデータ合成と検証可能な強化学習を統合している。
複数のエージェントツール使用ベンチマークの実験は、ASTRA訓練されたモデルが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-29T11:22:23Z) - AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。
しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。
本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文 参考訳(メタデータ) (2025-12-23T19:57:49Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - OpenReward: Learning to Reward Long-form Agentic Tasks via Reinforcement Learning [41.49024599460379]
大規模言語モデル(LLM)の整合には,リワードモデル(RM)が不可欠である。
ツール拡張型ロングフォーム報酬モデルであるOpenRMを導入し、外部ツールを呼び出して適切な証拠を収集することで、オープンエンドの応答を判断する。
新たにコンパイルされた3つのデータセットと2つの広く使用されているベンチマークの実験は、OpenRMが既存の報酬モデリングアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-28T17:02:46Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Don't Just Fine-tune the Agent, Tune the Environment [25.7349297100143]
合成データの微調整の監督は、過度な適合につながる。
標準的な強化学習は、重要なコールドスタート問題とトレーニング不安定性に苦慮している。
本研究は,静的軌道の教師付き微調整から動的環境探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-10-11T12:35:15Z) - Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z) - CCrepairBench: A High-Fidelity Benchmark and Reinforcement Learning Framework for C++ Compilation Repair [18.624106902572155]
CCrepairは、洗練された生成と検証パイプラインによって構築された、新しい大規模C++コンパイルエラーデータセットである。
第2に,ハイブリッド報酬信号で導かれる強化学習パラダイムを提案し,その焦点を単なるコンパイル性から修正の意味的品質にシフトさせる。
論文 参考訳(メタデータ) (2025-09-19T07:06:27Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。