論文の概要: SCRIBE: Structured Mid-Level Supervision for Tool-Using Language Models
- arxiv url: http://arxiv.org/abs/2601.03555v1
- Date: Wed, 07 Jan 2026 03:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.183693
- Title: SCRIBE: Structured Mid-Level Supervision for Tool-Using Language Models
- Title(参考訳): SCRIBE:ツール使用言語モデルのための構造化ミッドレベルスーパービジョン
- Authors: Yuxuan Jiang, Francis Ferraro,
- Abstract要約: SCRIBEは、新しい中間レベルの抽象化に介入する強化学習フレームワークである。
さまざまな推論とツール使用ベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 10.04930078540686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training reliable tool-augmented agents remains a significant challenge, largely due to the difficulty of credit assignment in multi-step reasoning. While process-level reward models offer a promising direction, existing LLM-based judges often produce noisy and inconsistent signals because they lack fine-grained, task-specific rubrics to distinguish high-level planning from low-level execution. In this work, we introduce SCRIBE (Skill-Conditioned Reward with Intermediate Behavioral Evaluation), a reinforcement learning framework that intervenes at a novel mid-level abstraction. SCRIBE grounds reward modeling in a curated library of skill prototypes, transforming open-ended LLM evaluation into a constrained verification problem. By routing each subgoal to a corresponding prototype, the reward model is equipped with precise, structured rubrics that substantially reduce reward variance. Experimental results show that SCRIBE achieves state-of-the-art performance across a range of reasoning and tool-use benchmarks. In particular, it improves the AIME25 accuracy of a Qwen3-4B model from 43.3% to 63.3%, and significantly increases success rates in complex multi-turn tool interactions. Further analysis of training dynamics reveals a co-evolution across abstraction levels, where mastery of mid-level skills consistently precedes the emergence of effective high-level planning behaviors. Finally, we demonstrate that SCRIBE is additive to low-level tool optimizations, providing a scalable and complementary pathway toward more autonomous and reliable tool-using agents.
- Abstract(参考訳): 信頼性の高いツール強化エージェントの訓練は、主に多段階推論におけるクレジット割り当ての難しさのために、依然として重要な課題である。
プロセスレベルの報酬モデルは有望な方向を提供するが、既存のLCMベースの裁判官は、高レベルの計画と低レベルの実行を区別するために、きめ細かいタスク固有のルーリックを欠いているため、ノイズや一貫性のない信号を生成することが多い。
本研究では,新しい中間レベル抽象化に介入する強化学習フレームワークであるSCRIBE(Skill-Conditioned Reward with Intermediate Behavioral Evaluation)を紹介する。
SCRIBEはスキルプロトタイプのキュレートされたライブラリに報酬モデリングを基礎として,オープンエンドのLCM評価を制約付き検証問題に変換する。
各サブゴールを対応するプロトタイプにルーティングすることにより、報酬モデルは、報酬分散を著しく低減する、正確に構造化されたルーリックを備える。
実験の結果、SCRIBEは様々な推論やツール使用ベンチマークで最先端のパフォーマンスを達成することがわかった。
特に、Qwen3-4BモデルのAIME25精度を43.3%から63.3%に改善し、複雑なマルチターンツールインタラクションの成功率を大幅に向上させた。
トレーニングダイナミクスのさらなる分析により、抽象レベルでの共進化が明らかとなり、そこでは、中レベルのスキルの習得が、効果的な高レベルの計画行動の出現に常に先行する。
最後に、SCRIBEが低レベルのツール最適化に付加的であることを示し、より自律的で信頼性の高いツール利用エージェントへのスケーラブルで相補的な経路を提供する。
関連論文リスト
- Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning [34.42899160708635]
自動プロセス監視のための木誘導・忠実度対応フレームワークであるGroundedPRMを紹介する。
グラウンドドPRMは40Kの自動的にラベル付けされたサンプルでトレーニングされており、自動ラベル付けされた監視で訓練された最高のパフォーマンスのPRMが使用するデータの10%しか使用できない。
ProcessBenchの平均パフォーマンスは最大で26%向上している。
論文 参考訳(メタデータ) (2025-10-16T17:54:07Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Enhancing LLM Robustness to Perturbed Instructions: An Empirical Study [8.827173113748701]
ダウンストリーム性能を著しく低下させるタスク特化命令の文字・単語レベルの編集について検討した。
平均的に、自己否定は、代替戦略よりも大幅に高いパフォーマンス向上を達成することが分かっています。
論文 参考訳(メタデータ) (2025-04-03T16:17:56Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。