論文の概要: Training Task Reasoning LLM Agents for Multi-turn Task Planning via Single-turn Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.20616v1
- Date: Wed, 24 Sep 2025 23:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.625405
- Title: Training Task Reasoning LLM Agents for Multi-turn Task Planning via Single-turn Reinforcement Learning
- Title(参考訳): 単ターン強化学習による多ターンタスク計画のためのLDMエージェントの訓練タスク推論
- Authors: Hanjiang Hu, Changliu Liu, Na Li, Yebin Wang,
- Abstract要約: 大規模言語モデル(LLM)は、知識獲得、推論、ツール使用において顕著な能力を示した。
本稿では,マルチターンタスク計画を単一ターンタスク推論問題に変換する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 15.393743659727926
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in knowledge acquisition, reasoning, and tool use, making them promising candidates for autonomous agent applications. However, training LLM agents for complex multi-turn task planning faces significant challenges, including sparse episode-wise rewards, credit assignment across long horizons, and the computational overhead of reinforcement learning in multi-turn interaction settings. To this end, this paper introduces a novel approach that transforms multi-turn task planning into single-turn task reasoning problems, enabling efficient policy optimization through Group Relative Policy Optimization (GRPO) with dense and verifiable reward from expert trajectories. Our theoretical analysis shows that GRPO improvement on single-turn task reasoning results in higher multi-turn success probability under the minimal turns, as well as the generalization to subtasks with shorter horizons. Experimental evaluation on the complex task planning benchmark demonstrates that our 1.5B parameter model trained with single-turn GRPO achieves superior performance compared to larger baseline models up to 14B parameters, with success rates of 70% for long-horizon planning tasks with over 30 steps. We also theoretically and empirically validate the strong cross-task generalizability that the models trained on complex tasks can lead to the successful completion of all simpler subtasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、知識獲得、推論、ツール使用において顕著な能力を示しており、自律的なエージェントアプリケーションに対する有望な候補となっている。
しかし、複雑なマルチターンタスク計画のためのLLMエージェントの訓練には、スパースエピソードワイド報酬、長期水平線を越えたクレジット割り当て、マルチターンインタラクション設定における強化学習の計算オーバーヘッドなど、大きな課題に直面している。
そこで本研究では,マルチターンタスク計画を単一ターンタスク推論問題に変換する手法を提案する。
理論解析により,単一ターンタスク推論におけるGRPOの改善は,最小ターン下でのマルチターン成功確率の向上と,より短い水平線を持つサブタスクへの一般化をもたらすことが示された。
複雑なタスク計画ベンチマーク実験の結果,1ターンGRPOでトレーニングした1.5Bパラメータモデルでは,最大14Bパラメータのベースラインモデルよりも優れた性能を示し,30ステップ以上の長期計画タスクでは70%の成功率が得られた。
また、複雑なタスクで訓練されたモデルが全ての単純なサブタスクの完了に繋がる強いクロスタスクの一般化性を理論的かつ実証的に検証する。
関連論文リスト
- MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。
タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。
タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文 参考訳(メタデータ) (2025-09-16T09:48:52Z) - PilotRL: Training Language Model Agents via Global Planning-Guided Progressive Reinforcement Learning [36.051921179063264]
大規模言語モデル(LLM)はエージェント指向タスクの処理において顕著な進歩を見せている。
現在のアプローチは主に教師付き微調整に依存しており、しばしばモデルが確立されたタスク完了軌跡を記憶させる。
適応的グローバルプランベースエージェントパラダイムであるAdaPlanを導入する。
論文 参考訳(メタデータ) (2025-08-01T06:17:11Z) - PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Planning with Multi-Constraints via Collaborative Language Agents [13.550774629515843]
本稿では,協調型マルチエージェントシステムのためのゼロショット手法であるPMC(Planning with Multi-Constraints)を紹介する。
PMCは、制約で複雑なタスク計画を簡単にし、従属タスクの階層に分解する。
PMCはTravelPlannerで平均42.68%の成功率を記録し、GPT-4 (2.92%) をはるかに上回り、API-BankでReActを13.64%上回った。
論文 参考訳(メタデータ) (2024-05-26T10:33:17Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - In Defense of the Unitary Scalarization for Deep Multi-Task Learning [121.76421174107463]
本稿では,多くの特殊マルチタスクを正規化の形式として解釈できることを示唆する理論解析について述べる。
標準正規化と安定化技術と組み合わせると、ユニタリスカラー化は複雑なマルチタスクの性能にマッチし、改善することを示す。
論文 参考訳(メタデータ) (2022-01-11T18:44:17Z) - A Simple General Approach to Balance Task Difficulty in Multi-Task
Learning [4.531240717484252]
マルチタスク学習では、異なるタスクの難易度が異なる。
本稿では,BMTL(Ba balanced Multi-Task Learning)フレームワークを提案する。
提案するBMTLフレームワークは非常にシンプルで、ほとんどのマルチタスク学習モデルと組み合わせることができる。
論文 参考訳(メタデータ) (2020-02-12T04:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。