論文の概要: Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management
- arxiv url: http://arxiv.org/abs/2510.06727v1
- Date: Wed, 08 Oct 2025 07:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.349522
- Title: Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management
- Title(参考訳): エンド・ツー・エンドの要約に基づくコンテキスト管理によるLLMマルチターンRLのスケーリング
- Authors: Miao Lu, Weiwei Sun, Weihua Du, Zhan Ling, Xuesong Yao, Kang Liu, Jiecao Chen,
- Abstract要約: 要約に基づくコンテキスト管理をトレーニングに導入する。
UnderlineSUmmarization 拡張 UnderlinePolicy UnderlineOptimization (textttSUPO) でこのフレームワークをインスタンス化する。
本研究は,RLエージェントを一定の文脈長制限を超えて訓練するための原則的かつスケーラブルな手法として,要約に基づくコンテキスト管理を確立した。
- 参考スコア(独自算出の注目度): 19.980762483472354
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study reinforcement learning (RL) fine-tuning of large language model (LLM) agents for long-horizon multi-turn tool use, where context length quickly becomes a fundamental bottleneck. Existing RL pipelines can suffer from degraded instruction following, excessive rollout costs, and most importantly, strict context limits. To address these challenges, we introduce summarization-based context management to training. In specific, it periodically compresses the tool using history by LLM-generated summaries that retain task-relevant information to keep a compact context while enabling the agent to scale beyond the fixed context window. Building on this formulation, we derive a policy gradient representation that seamlessly enables standard LLM RL infrastructures to optimize both tool-use behaviors as well as summarization strategies in an end-to-end fashion. We instantiate this framework with \underline{SU}mmarization augmented \underline{P}olicy \underline{O}ptimization (\texttt{SUPO}), an LLM RL algorithm that enables long-horizon training beyond a fixed context limit. Experiments on interactive function calling and searching tasks demonstrate that \texttt{SUPO} significantly improves the success rate while maintaining the same or even lower working context length compared to baselines. We also demonstrate that for complex searching tasks, \texttt{SUPO} can further improve the evaluation performance when scaling test-time maximum round of summarization beyond that of training time. Our results establish summarization-based context management as a principled and scalable approach for training RL agents beyond a fixed context length limit.
- Abstract(参考訳): 本研究では,長期マルチターンツール用大規模言語モデル(LLM)エージェントの強化学習(RL)微調整について検討する。
既存のRLパイプラインは、後続命令の劣化、過剰なロールアウトコスト、そして最も重要なのは、厳格なコンテキスト制限に悩まされる可能性がある。
これらの課題に対処するために、トレーニングに要約ベースのコンテキスト管理を導入する。
具体的には、タスク関連情報を保持し、エージェントが固定されたコンテキストウインドウを越えながら、コンパクトなコンテキストを維持するLCM生成サマリーによって、履歴を使用したツールを定期的に圧縮する。
この定式化に基づいて、標準LLM RLインフラをシームレスに、ツール使用行動とエンドツーエンドの要約戦略の両方を最適化できるポリシー勾配表現を導出する。
我々は,LLM RL アルゴリズムである \underline{SU}mmarization augmented \underline{P}olicy \underline{O}ptimization (\texttt{SUPO}) を用いてこのフレームワークをインスタンス化する。
対話型関数呼び出しと探索タスクの実験により,‘texttt{SUPO} は,ベースラインと比較して同じあるいは低い作業コンテキスト長を維持しながら,成功率を大幅に向上することが示された。
また, 複雑な探索タスクに対して, テストタイムの最大ラウンドをトレーニング時間を超えてスケーリングする場合, 評価性能をさらに向上させることができることを示した。
本研究は,RLエージェントを一定の文脈長制限を超えて訓練するための原則的かつスケーラブルな手法として,要約に基づくコンテキスト管理を確立した。
関連論文リスト
- ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-06T07:49:52Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents [36.71024242963793]
本稿では、系列モデルを用いて、一般化、長期記憶、メタ学習の課題に取り組む、コンテキスト内強化学習エージェントであるAMAGOを紹介する。
我々のエージェントは拡張性があり、幅広い問題に適用可能であり、メタRLと長期記憶領域において、その強力な性能を実証的に実証する。
論文 参考訳(メタデータ) (2023-10-15T22:20:39Z) - On Context Distribution Shift in Task Representation Learning for
Offline Meta RL [7.8317653074640186]
我々は、文脈に基づくOMRL、特にOMRLのタスク表現学習の課題に焦点を当てる。
この問題を解決するために、堅牢なタスクコンテキストエンコーダをトレーニングするためのハードサンプリングベースの戦略を提案する。
論文 参考訳(メタデータ) (2023-04-01T16:21:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。