論文の概要: Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors
- arxiv url: http://arxiv.org/abs/2601.15625v1
- Date: Thu, 22 Jan 2026 03:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.48595
- Title: Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors
- Title(参考訳): Fission-GRPOを利用したロバストツール:実行エラーから回復する学習
- Authors: Zhiwei Zhang, Fei Zhao, Rui Wang, Zezhong Wang, Bin Liang, Jiakang Wang, Yao Hu, Shaosheng Cao, Kam-Fai Wong,
- Abstract要約: 本稿では,実行エラーをRLトレーニングループ内の修正監視に変換するフレームワークであるFission-GRPOを提案する。
私たちのコアメカニズムは、微調整されたエラーシミュレータの診断フィードバックによって、新しいトレーニングインスタンスへの各障害軌跡を増大させます。
BFCL v4 Multi-Turnでは、Fission-GRPOはQwen3-8Bのエラー回復率を5.7%改善し、その精度は4%向上した。
- 参考スコア(独自算出の注目度): 41.78467154106763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can call tools effectively, yet they remain brittle in multi-turn execution: following a tool call error, smaller models often degenerate into repetitive invalid re-invocations, failing to interpret error feedback and self-correct. This brittleness hinders reliable real-world deployment, where the execution errors are inherently inevitable during tool interaction procedures. We identify a key limitation of current approaches: standard reinforcement learning (RL) treats errors as sparse negative rewards, providing no guidance on how to recover, while pre-collected synthetic error-correction datasets suffer from distribution mismatch with the model's on-policy error modes. To bridge this gap, we propose Fission-GRPO, a framework that converts execution errors into corrective supervision within the RL training loop. Our core mechanism fissions each failed trajectory into a new training instance by augmenting it with diagnostic feedback from a finetuned Error Simulator, then resampling recovery rollouts on-policy. This enables the model to learn from the precise errors it makes during exploration, rather than from static, pre-collected error cases. On the BFCL v4 Multi-Turn, Fission-GRPO improves the error recovery rate of Qwen3-8B by 5.7% absolute, crucially, yielding a 4% overall accuracy gain (42.75% to 46.75%) over GRPO and outperforming specialized tool-use agents.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ツールを効果的に呼び出すことができるが、マルチターン実行では不安定なままである。
この不安定さは、ツールのインタラクション手順において、実行エラーが本質的に避けられないような、信頼性の高い実世界のデプロイメントを妨げる。
標準強化学習(RL)は、エラーをスパース負の報酬として扱い、回復方法のガイダンスを提供しない一方、事前コンパイルされた合成誤差補正データセットは、モデル上のエラーモードとの分布ミスマッチに悩まされる。
このギャップを埋めるために、我々は、実行エラーをRLトレーニングループ内の修正監視に変換するフレームワークであるFission-GRPOを提案する。
私たちのコアメカニズムは、細調整されたエラーシミュレータからの診断フィードバックで、新しいトレーニングインスタンスへの軌道変更を失敗し、その後、リカバリロールアウトを再サンプリングすることで、新しいトレーニングインスタンスに到達します。
これにより、静的で事前にコンパイルされたエラーケースではなく、探索中の正確なエラーからモデルを学習することができる。
BFCL v4 Multi-Turnでは、Fission-GRPOはQwen3-8Bのエラー回復率を5.7%改善し、GRPOよりも4%の精度向上(42.75%から46.75%)を達成し、特殊なツール使用エージェントを上回っている。
関連論文リスト
- CLEANER: Self-Purified Trajectories Boost Agentic Reinforcement Learning [4.765206163164323]
CLEANERは本質的な自己訂正機能を利用して、データ収集中にエラーに汚染されたコンテキストを除去する。
類似性を考慮した適応ロールバック機構は、クリーンで清浄な軌道を自律的に構築する。
その結果, 平均精度は6%, 3%, 5%であった。
論文 参考訳(メタデータ) (2026-01-21T16:14:30Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - PALADIN: Self-Correcting Language Model Agents to Cure Tool-Failure Cases [2.3181214107210235]
PALADINは、系統的な障害注入によって構築された5万以上のリカバリアノテーション付き軌道を走行する。
トレーニングでは、LoRAベースの微調整を使用して、回復能力を注入しながらベース能力を維持する。
このアプローチは、トレーニング分布を超えた新しい失敗に一般化する。
論文 参考訳(メタデータ) (2025-09-25T10:37:30Z) - Self-Correction Bench: Uncovering and Addressing the Self-Correction Blind Spot in Large Language Models [0.7910367295422812]
大規模言語モデル(LLM)は誤りを犯し、非生産的推論経路を探索することができる。
自己補正機能は、安全クリティカルなアプリケーションにLLMをデプロイするために不可欠である。
LLMは、外部ソースから同一のエラーを修正しながら、自身の出力でエラーを修正することはできない。
論文 参考訳(メタデータ) (2025-07-03T16:41:30Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。