論文の概要: Encouraging Good Processes Without the Need for Good Answers: Reinforcement Learning for LLM Agent Planning
- arxiv url: http://arxiv.org/abs/2508.19598v1
- Date: Wed, 27 Aug 2025 06:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.516367
- Title: Encouraging Good Processes Without the Need for Good Answers: Reinforcement Learning for LLM Agent Planning
- Title(参考訳): よい回答を必要とせずに良いプロセスを奨励する: LLM エージェント計画のための強化学習
- Authors: Zhiwei Li, Yong Hu, Wenqing Wang,
- Abstract要約: Reinforcement Learning with Tool-use Rewardsは、トレーニングプロセスを分離して、計画モジュールの集中的で単目的的な最適化を可能にする新しいフレームワークである。
実験の結果, RLTRは, エンド・ツー・エンドのベースラインに比べて, 計画性能が8%-12%向上していることがわかった。
この拡張計画能力は、結果として、全体のエージェントシステムの最終的な応答品質が5%-6%向上したことを意味する。
- 参考スコア(独自算出の注目度): 6.314485350935057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The functionality of Large Language Model (LLM) agents is primarily determined by two capabilities: action planning and answer summarization. The former, action planning, is the core capability that dictates an agent's performance. However, prevailing training paradigms employ end-to-end, multi-objective optimization that jointly trains both capabilities. This paradigm faces two critical challenges: imbalanced optimization objective allocation and scarcity of verifiable data, making it difficult to enhance the agent's planning capability. To address these challenges, we propose Reinforcement Learning with Tool-use Rewards (RLTR), a novel framework that decouples the training process to enable a focused, single-objective optimization of the planning module. Crucially, RLTR introduces a reward signal based on tool-use completeness to directly evaluate the quality of tool invocation sequences. This method offers a more direct and reliable training signal than assessing the final response content, thereby obviating the need for verifiable data. Our experiments demonstrate that RLTR achieves an 8%-12% improvement in planning performance compared to end-to-end baselines. Moreover, this enhanced planning capability, in turn, translates to a 5%-6% increase in the final response quality of the overall agent system.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントの機能は主に2つの機能によって決定される。
前者はアクションプランニングであり、エージェントのパフォーマンスを指示するコア機能である。
しかし、一般的な訓練パラダイムでは、両機能を共同で訓練するエンドツーエンドの多目的最適化が採用されている。
このパラダイムは、不均衡な最適化目標の割り当てと検証可能なデータの不足という2つの重要な課題に直面する。
これらの課題に対処するため、我々は、RLTR(Reinforcement Learning with Tool-use Rewards)を提案する。
重要なこととして、RLTRはツール使用完全性に基づく報酬信号を導入し、ツール呼び出しシーケンスの品質を直接評価する。
この方法は、最終応答内容を評価するよりもダイレクトで信頼性の高い訓練信号を提供するため、検証データの必要性を回避できる。
実験の結果, RLTRは, エンド・ツー・エンドのベースラインに比べて, 計画性能が8%-12%向上していることがわかった。
さらに, この拡張計画能力は, エージェントシステム全体の応答品質を5%-6%向上させる。
関連論文リスト
- PilotRL: Training Language Model Agents via Global Planning-Guided Progressive Reinforcement Learning [36.051921179063264]
大規模言語モデル(LLM)はエージェント指向タスクの処理において顕著な進歩を見せている。
現在のアプローチは主に教師付き微調整に依存しており、しばしばモデルが確立されたタスク完了軌跡を記憶させる。
適応的グローバルプランベースエージェントパラダイムであるAdaPlanを導入する。
論文 参考訳(メタデータ) (2025-08-01T06:17:11Z) - Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning [6.75641900721385]
大規模言語モデル(LLM)は、複雑なタスクを計画するためのエージェントとしての使用を可能にした。
Retrieval-augmented Generation (RAG) は、検索された情報において、外部データベースをグラウンドジェネレーションに活用することで、新たな機会を提供する。
本稿では,これらの課題に対処するためのマルチエージェントメタ強化学習フレームワークであるInstructRAGを提案する。
論文 参考訳(メタデータ) (2025-04-17T15:41:39Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Efficient Reinforced Feature Selection via Early Stopping Traverse
Strategy [36.890295071860166]
単エージェントモンテカルロ型強化特徴選択法(MCRFS)を提案する。
また,早期停止(ES)戦略と報酬レベルインタラクティブ(RI)戦略の2つの効率改善戦略を提案する。
論文 参考訳(メタデータ) (2021-09-29T03:51:13Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。