論文の概要: Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.09813v1
- Date: Fri, 10 Apr 2026 18:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.687541
- Title: Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning
- Title(参考訳): エージェント強化学習のための制御可能で検証可能なツール・ユースデータ合成
- Authors: Siyuan Xu, Shiyang Li, Xin Liu, Tianyi Liu, Yixiao Li, Zhan Shi, Zixuan Zhang, Zilong Wang, Qingyu Yin, Jianshu Chen, Tuo Zhao, Bing Yin,
- Abstract要約: マルチレベル検証を用いた自己進化型合成により,信頼性の高い基本ツール利用軌跡を生成する2段階パイプラインを提案する。
これらの拡張は、トラクタツール、間接的または曖昧なユーザクエリ、ノイズ、マルチフォーマット、あるいは誤ったツール出力を導入します。
本設計では,標準事例に対する参照マッチングによる報酬の自動計算と,エラー検出などの特別な動作に対する軽量な判断支援検証を実現する。
- 参考スコア(独自算出の注目度): 82.89535601592739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing synthetic tool-use corpora are primarily designed for offline supervised fine-tuning, yet reinforcement learning (RL) requires executable environments that support reward-checkable online rollouts. We propose COVERT, a two-stage pipeline that first generates reliable base tool-use trajectories through self-evolving synthesis with multi-level validation, and then applies oracle-preserving augmentations that systematically increase environmental complexity. These augmentations introduce distractor tools, indirect or ambiguous user queries, and noisy, multi-format, or erroneous tool outputs, while strictly preserving oracle tool calls and final answers as ground truth. This design enables automatic reward computation via reference matching for standard cases and lightweight judge-assisted verification for special behaviors such as error detection, supporting RL optimization of tool-calling policies. On Qwen2.5-Instruct-14B, COVERT-RL improves overall accuracy on BFCL v3 from 56.5 to 59.9 and on ACEBench from 53.0 to 59.3, with minimal regressions on general-ability benchmarks; when stacked on SFT, it further reaches 62.1 and 61.8, confirming additive gains. These results suggest that oracle-preserving synthetic environments offer a practical RL refinement stage, complementary to SFT, for improving tool-use robustness under ambiguity and unreliable tool feedback.
- Abstract(参考訳): 既存の合成ツール使用コーパスは、主にオフラインで教師付き微調整用に設計されているが、強化学習(RL)は報酬チェック可能なオンラインロールアウトをサポートする実行可能な環境を必要とする。
マルチレベル検証による自己進化型合成により,まず信頼性の高い基本ツール利用軌跡を生成する2段階パイプラインであるCOVERTを提案し,その上で,環境複雑性を体系的に増大させるオラクル保存拡張を適用した。
これらの拡張は、トラクタツール、間接的または曖昧なユーザクエリ、ノイズ、マルチフォーマット、あるいは誤ったツールアウトプットを導入します。
本設計では,標準事例に対する参照マッチングによる自動報酬計算と,エラー検出やツールコールポリシーのRL最適化などの特別な動作に対する軽量な判断支援検証を実現する。
Qwen2.5-Instruct-14Bでは、COVERT-RLはBFCL v3の全体的な精度を56.5から59.9に改善し、ACEBenchは53.0から59.3に改善した。
これらの結果から, オラクル保存型人工環境は, SFTを補完する実用的なRL精製段階を提供し, あいまいさと信頼性の低いツールフィードバック下でのツール使用の堅牢性を向上させることが示唆された。
関連論文リスト
- CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - A Large Scale Empirical Analysis on the Adherence Gap between Standards and Tools in SBOM [54.38424417079265]
ソフトウェア・ビル・オブ・マテリアル(Software Bill of Materials, SBOM)は、ソフトウェア情報を整理する機械読み取り可能なアーティファクトである。
標準に従って、組織はSBOMの生成と利用のためのツールを開発した。
本稿では,我々の自動評価フレームワークであるSAPを用いて,接着ギャップの大規模2段階解析を行った。
論文 参考訳(メタデータ) (2026-01-09T08:26:05Z) - ToolMind Technical Report: A Large-Scale, Reasoning-Enhanced Tool-Use Dataset [43.45582911794623]
我々は,160kの合成データインスタンスを備えた高品質なツールエージェントデータセットであるToolMindを紹介した。
我々は, 高精度なターンレベルのフィルタリングを用いて, 誤りや不適切なステップを除去する。
ToolMindで微調整されたモデルは、いくつかのベンチマークでベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-12T13:01:23Z) - Agentic Reinforcement Learning for Real-World Code Repair [7.512134741776294]
実際のリポジトリで信頼性の高いコード修正エージェントをトレーニングするという課題に取り組みます。
修正後のビルド検証として成功した検証可能なパイプラインを開発しました。
大規模強化学習のためのスケーラブルな簡易パイプラインを導入した。
論文 参考訳(メタデータ) (2025-10-24T23:25:02Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - ReTool: Reinforcement Learning for Strategic Tool Use in LLMs [27.07998056454784]
ReToolは、ツール統合学習によるロングフォーム推論を強化する。
モデルは400のトレーニングステップで67%の精度を達成する。
注目すべきは、ReTool-32Bが72.5%の精度で設定できることだ。
論文 参考訳(メタデータ) (2025-04-15T18:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。