論文の概要: Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards
- arxiv url: http://arxiv.org/abs/2603.24709v1
- Date: Wed, 25 Mar 2026 18:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.93632
- Title: Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards
- Title(参考訳): 制約付きデータ合成と学習報酬を用いた多段階ツール編成のためのLLMの訓練
- Authors: Cheng Jiayang, Xin Liu, Zhihan Zhang, Haoyang Wen, Zixuan Zhang, Qingyu Yin, Shiyang Li, Priyanka Nigam, Bing Yin, Chao Zhang, Yangqiu Song,
- Abstract要約: LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。
既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。
まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。
第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
- 参考スコア(独自算出の注目度): 76.49428173793386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-step tool orchestration, where LLMs must invoke multiple dependent APIs in the correct order while propagating intermediate outputs, remains challenging. State-of-the-art models frequently fail on full sequence execution, with parameter value errors accounting for a significant portion of failures. Training models to handle such workflows faces two obstacles: existing environments focus on simple per-turn function calls with simulated data, and binary rewards provide no signal for partial correctness. We present a framework addressing both challenges. First, we construct a reinforcement learning environment backed by a large-scale cache of real API responses, enabling a data synthesis pipeline that samples valid multi-step orchestration traces with controllable complexity and significantly higher generation efficiency than unconstrained methods. Second, we propose a graduated reward design that decomposes correctness into atomic validity (individual function call correctness at increasing granularity) and orchestration (correct tool sequencing with dependency respect). On ComplexFuncBench, our approach demonstrates substantial improvements in turn accuracy. Ablation studies confirm both reward components are essential: using either alone significantly degrades performance.
- Abstract(参考訳): LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出しなければならないマルチステップツールオーケストレーションは、依然として困難である。
State-of-the-artモデルはフルシーケンス実行時に頻繁にフェールし、パラメータ値エラーはエラーのかなりの部分を占める。
このようなワークフローを扱うためのトレーニングモデルは2つの障害に直面している。既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しに重点を置いており、バイナリ報酬は部分的正しさの信号を提供しない。
両課題に対処する枠組みを提示する。
まず、実API応答の大規模キャッシュを背景とした強化学習環境を構築し、データ合成パイプラインにより、有効な多段階オーケストレーショントレースを、制御可能な複雑さと、制約のないメソッドよりもはるかに高い生成効率でサンプリングする。
第2に,正当性を原子的妥当性(粒度の増大に伴う個々の関数呼び出しの正当性)とオーケストレーション(依存性を尊重する正しいツールシークエンシング)に分解する,累積的な報酬設計を提案する。
ComplexFuncBenchでは,ターン精度が大幅に向上した。
アブレーション研究では、両方の報酬成分が必須であることが確認されている。
関連論文リスト
- Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。
本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。
本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T15:45:08Z) - daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently [35.39097522391409]
大規模言語モデル(LLM)は短期的なタスクで優れており、それらを長期のエージェント合成に拡張することは依然として困難である。
本稿では,PRチェーンから構造化監視を体系的にマイニングするdaVinci-Agencyを提案する。
DaVinci-AgencyのPR基底構造は、本質的には、永続的なゴールサイクルの振る舞いを教えるのに不可欠な因果依存性と反復的な洗練を保っている。
論文 参考訳(メタデータ) (2026-02-02T13:23:39Z) - Don't Just Fine-tune the Agent, Tune the Environment [25.7349297100143]
合成データの微調整の監督は、過度な適合につながる。
標準的な強化学習は、重要なコールドスタート問題とトレーニング不安定性に苦慮している。
本研究は,静的軌道の教師付き微調整から動的環境探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-10-11T12:35:15Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - DESIRE: Dynamic Knowledge Consolidation for Rehearsal-Free Continual Learning [23.878495627964146]
連続学習は、人間のような以前に学習された知識を保持する能力をモデルに装備することを目的としている。
既存の手法は通常、実験データが事前訓練されたモデルで使用されているという事実によって引き起こされる情報漏洩の問題を見落としている。
本稿では,ロラをベースとした新たなリハーサルフリー手法DESIREを提案する。
論文 参考訳(メタデータ) (2024-11-28T13:54:01Z) - Divide-Verify-Refine: Can LLMs Self-Align with Complex Instructions? [33.18076221854853]
複雑な命令を単一制約に分割し,適切なツールを作成するためのフレームワークを提案する。
次に、厳密なチェックとテキストガイダンスを提供するツールを使用して応答を検証する。
改良効率を最大化するために,改良レポジトリが改良を成功させる動的数発プロンプトを提案する。
論文 参考訳(メタデータ) (2024-10-16T04:01:55Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。