論文の概要: Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents
- arxiv url: http://arxiv.org/abs/2509.14480v1
- Date: Wed, 17 Sep 2025 23:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.001202
- Title: Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents
- Title(参考訳): 対話型マルチモーダルツール利用エージェントのためのプロセススーパービジョン強化学習
- Authors: Weiting Tan, Xinghua Qu, Ming Tu, Meng Ge, Andy T. Liu, Philipp Koehn, Lu Lu,
- Abstract要約: 音声テキストのインターリーブを支援する強化学習用サンドボックス環境(RL)を導入する。
我々の中核戦略であるTARL(Turn-level Adjudicated Reinforcement Learning)は、長期的タスクにおけるクレジット割り当ての課題に対処する。
この統一されたアプローチは、強いRLベースラインと比較してテキストベースの$tau$-benchのタスクパス率を6%以上向上させる。
- 参考スコア(独自算出の注目度): 34.720205364467546
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Effective interactive tool use requires agents to master Tool Integrated Reasoning (TIR): a complex process involving multi-turn planning and long-context dialogue management. To train agents for this dynamic process, particularly in multi-modal contexts, we introduce a sandbox environment for reinforcement learning (RL) that supports interleaved speech-text rollouts. Our core strategy, Turn-level Adjudicated Reinforcement Learning (TARL), addresses the challenge of credit assignment in long-horizon tasks by employing a Large Language Model (LLM) as a judge to provide turn-level evaluation. To enhance exploration, we integrate a mixed-task training curriculum with mathematical reasoning problems. This unified approach boosts the task pass rate on the text-based $\tau$-bench by over 6% compared to strong RL baselines. Crucially, we demonstrate our framework's suitability for fine-tuning a multi-modal foundation model for agentic tasks. By training a base multi-modal LLM on interleaved speech-text rollouts, we equip it with tool-use abilities, paving the way for more natural, voice-driven interactive agents.
- Abstract(参考訳): 効果的なインタラクティブツールの使用には、ツール統合推論(TIR: Tool Integrated Reasoning)をマスターするエージェントが必要である。
この動的プロセス,特にマルチモーダルな文脈においてエージェントを訓練するために,言語文のインターリーブをサポートする強化学習環境(RL)を導入する。
我々の中核戦略であるTARL(Turn-level Adjudicated Reinforcement Learning)は,Large Language Model(LLM)を審査員として活用して,長期タスクにおけるクレジット割り当ての課題に対処する。
探索を強化するため,混合タスク学習カリキュラムを数学的推論問題と統合した。
この統一されたアプローチは、強いRLベースラインと比較してテキストベースの$\tau$-benchのタスクパス率を6%以上向上させる。
重要なことは、エージェントタスクのためのマルチモーダル基盤モデルを微調整するためのフレームワークの適合性を実証する。
インターリーブされた音声テキストのロールアウトをベースとしたマルチモーダルLCMをトレーニングすることにより、より自然な音声駆動型対話エージェントへの道を開いたツール使用能力を備える。
関連論文リスト
- Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning [0.21845291030915975]
ARTISTはエージェント推論、強化学習、大規模言語モデルのツール統合を密に結合する統合フレームワークである。
モデルは、マルチターン推論チェーン内でいつ、どのように、どのツールを呼び出すかを、自律的に決定できる。
実験の結果、ARTISTは最先端のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-04-28T10:42:49Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - High-Quality Diversification for Task-Oriented Dialogue Systems [18.455916009255485]
多様な対話路を持つDRLエージェントの訓練は、稀なユーザ要求や目に見えない状況に備える。
1つの効果的な多様化方法は、エージェントが多様な学習されたユーザーモデルと対話できるようにすることである。
シミュレータで訓練されたタスク指向対話システムのための新しい対話多様化手法を提案する。
論文 参考訳(メタデータ) (2021-06-02T02:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。