論文の概要: When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents
- arxiv url: http://arxiv.org/abs/2512.11277v1
- Date: Fri, 12 Dec 2025 04:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.659071
- Title: When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents
- Title(参考訳): 思考を促すアクション:会話エージェントにおける強化学習による推論-行動シナジー
- Authors: Mrinal Rawat, Arkajyoti Chakraborty, Neha Gupta, Roberto Pieraccini,
- Abstract要約: Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。
本稿では,LLMがツールの呼び出しと対話エージェントの応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
- 参考スコア(独自算出の注目度): 2.689316553293938
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Supervised fine-tuning (SFT) has emerged as one of the most effective ways to improve the performance of large language models (LLMs) in downstream tasks. However, SFT can have difficulty generalizing when the underlying data distribution changes, even when the new data does not fall completely outside the training domain. Recent reasoning-focused models such as o1 and R1 have demonstrated consistent gains over their non-reasoning counterparts, highlighting the importance of reasoning for improved generalization and reliability. However, collecting high-quality reasoning traces for SFT remains challenging -- annotations are costly, subjective, and difficult to scale. To address this limitation, we leverage Reinforcement Learning (RL) to enable models to learn reasoning strategies directly from task outcomes. We propose a pipeline in which LLMs generate reasoning steps that guide both the invocation of tools (e.g., function calls) and the final answer generation for conversational agents. Our method employs Group Relative Policy Optimization (GRPO) with rewards designed around tool accuracy and answer correctness, allowing the model to iteratively refine its reasoning and actions. Experimental results demonstrate that our approach improves both the quality of reasoning and the precision of tool invocations, achieving a 1.5% relative improvement over the SFT model (trained without explicit thinking) and a 40% gain compared to the base of the vanilla Qwen3-1.7B model. These findings demonstrate the promise of unifying reasoning and action learning through RL to build more capable and generalizable conversational agents.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。
しかし、SFTは、新しいデータがトレーニング領域から完全に外れていない場合でも、基礎となるデータ分布が変化したときの一般化が困難になる可能性がある。
近年、o1 や R1 のような推論に焦点を絞ったモデルでは、非推論モデルよりも一貫した利得を示し、一般化と信頼性を向上させるための推論の重要性を強調している。
しかし、SFTの高品質な推論トレースの収集は依然として困難であり、アノテーションはコストが高く、主観的で、スケールが難しい。
この制限に対処するために、強化学習(RL)を活用し、モデルがタスク結果から直接推論戦略を学習できるようにする。
本稿では、LLMがツールの呼び出し(例えば、関数呼び出し)と対話エージェントの最終応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
提案手法では,ツールの精度と正解率に配慮した報酬をグループ相対政策最適化(GRPO)に導入し,モデルの推論と動作を反復的に改善する。
実験の結果,提案手法は推論の質とツールの実行精度を向上し,SFTモデルよりも1.5%向上し(明示的思考なしで訓練した),バニラQwen3-1.7Bモデルのベースに比べて40%向上した。
これらの知見は、より有能で汎用的な会話エージェントを構築するために、RLを通して推論と行動学習を統合することの可能性を示している。
関連論文リスト
- Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Behavior Injection: Preparing Language Models for Reinforcement Learning [45.744838898763554]
我々はRL目標のステップごとの影響を分析し、効果的な後学習のための2つの重要な条件を同定する。
RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
提案手法は,複数のベースモデルを用いた2つの推論ベンチマークで評価する。
論文 参考訳(メタデータ) (2025-05-25T00:54:50Z) - Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning [93.30252692375886]
ルールベースの強化学習は、大きな言語モデルにおけるツールコールを強化するために使用することができる。
ツールN1-7B/14Bはいくつかの主要なベンチマークでGPT-4oを上回った。
論文 参考訳(メタデータ) (2025-04-25T02:55:21Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。