論文の概要: Escaping the Context Bottleneck: Active Context Curation for LLM Agents via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.11462v1
- Date: Mon, 13 Apr 2026 13:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.564989
- Title: Escaping the Context Bottleneck: Active Context Curation for LLM Agents via Reinforcement Learning
- Title(参考訳): コンテキストボトルネックの脱出:強化学習によるLLMエージェントのアクティブコンテキストキュレーション
- Authors: Xiaozhe Li, Tianyi Lyu, Yizhao Yang, Liang Shan, Siyi Yang, Ligao Zhang, Zhuoyi Huang, Qingwen Liu, Yang Li,
- Abstract要約: タスク実行からコンテキスト管理を分離する共生フレームワークを導入する。
私たちのアーキテクチャは、軽量で特殊なポリシーモデルであるContextCuratorと、強力な凍結基盤モデルであるTaskExecutorを組み合わせています。
WebArenaでは,Gemini-3.0フラッシュの成功率を36.4%から41.2%に改善し,トークン使用率を8.8%削減した。
DeepSearchでは、53.9%と比べて57.1%の成功率を達成し、トークン消費を8.5%削減した。
- 参考スコア(独自算出の注目度): 6.577332846728808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) struggle with long-horizon tasks due to the "context bottleneck" and the "lost-in-the-middle" phenomenon, where accumulated noise from verbose environments degrades reasoning over multi-turn interactions. To address this issue, we introduce a symbiotic framework that decouples context management from task execution. Our architecture pairs a lightweight, specialized policy model, ContextCurator, with a powerful frozen foundation model, TaskExecutor. Trained via reinforcement learning, ContextCurator actively reduces information entropy in the working memory. It aggressively prunes environmental noise while preserving reasoning anchors, that is, sparse data points that are critical for future deductions. On WebArena, our framework improves the success rate of Gemini-3.0-flash from 36.4% to 41.2% while reducing token consumption by 8.8% (from 47.4K to 43.3K). On DeepSearch, it achieves a 57.1% success rate, compared with 53.9%, while reducing token consumption by a factor of 8. Remarkably, a 7B ContextCurator matches the context management performance of GPT-4o, providing a scalable and computationally efficient paradigm for autonomous long-horizon agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は「コンテキストボトルネック」と「中途半端な」現象のため、長い水平タスクに苦しむ。
この問題に対処するため,タスク実行からコンテキスト管理を分離する共生フレームワークを導入する。
私たちのアーキテクチャは、軽量で特殊なポリシーモデルであるContextCuratorと、強力な凍結基盤モデルであるTaskExecutorを組み合わせています。
強化学習を通じてトレーニングされたContextCuratorは、ワーキングメモリにおける情報エントロピーを積極的に削減する。
環境騒音を積極的に引き起こし、推論アンカーを保存する。
WebArenaでは、Gemini-3.0フラッシュの成功率を36.4%から41.2%に改善し、トークン消費を8.8%削減した(47.4Kから43.3K)。
DeepSearchでは、53.9%と比べて57.1%の成功率を達成し、トークン消費を8.5%削減した。
注目すべきは、7B ContextCuratorがGPT-4oのコンテキスト管理性能と一致し、自律的長距離エージェントのためのスケーラブルで計算的に効率的なパラダイムを提供することである。
関連論文リスト
- LightThinker++: From Reasoning Compression to Memory Management [61.2260619973687]
大きな言語モデル(LLM)は複雑な推論において優れているが、その効率は長い思考トレースの認知的オーバーヘッドの増加によって制限される。
LLMが動的に中間的思考をコンパクトな意味表現に圧縮できる方法であるLightThinkerを提案する。
私たちはフレームワークをLightThinker++に進化させ、Explicit Adaptive Memory Managementを導入しました。
論文 参考訳(メタデータ) (2026-04-04T10:46:09Z) - GLANCE: Gaze-Led Attention Network for Compressed Edge-inference [10.229095428511654]
AR/VRシステムにおけるリアルタイムオブジェクト検出は、厳格な電力予算内で10ms未満のレイテンシを必要とする、計算上の重要な制約に直面している。
生体の葉の視覚にインスパイアされた2段階のパイプラインを提案する。このパイプラインは、異なる重みのないニューラルネットワークを組み合わせ、超効率的な視線推定と、注意誘導された関心の領域検出を行う。
論文 参考訳(メタデータ) (2026-03-16T15:52:52Z) - CoT4Det: A Chain-of-Thought Framework for Perception-Oriented Vision-Language Tasks [53.88194225946438]
Chain-of-Thought for Detection (CoT4Det)は、知覚タスクを3つの解釈可能なステップに再構成するシンプルだが効率的な戦略である。
一般的な視覚言語能力を損なうことなく,CoT4Detは認識性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-12-07T05:26:30Z) - Revisiting Long-context Modeling from Context Denoising Perspective [47.73358822870211]
LCM(Long-context Model)は、コンテキスト内で暗黙的な臨界情報を見つけることで、さらなる予測を行う。
近年の研究では、LCMは文脈的ノイズ、すなわち無関係なトークンの影響を受けやすいことがしばしば明らかになっている。
本稿では,実測値である統合勾配(IG)スコアを提案し,コンテキスト内の雑音情報を検出し定量化する。
論文 参考訳(メタデータ) (2025-10-07T12:32:23Z) - An Automated Attack Investigation Approach Leveraging Threat-Knowledge-Augmented Large Language Models [17.220143037047627]
Advanced Persistent Threats (APTs) は高価値システムを侵害してデータを盗んだり、操作を妨害したりする。
既存の手法では、プラットフォーム全般性の貧弱さ、進化的戦術への一般化の制限、アナリスト対応のレポート作成が不可能なことなどに悩まされている。
動的に適応可能なKil-Chain対応脅威知識ベースを組み込んだLDMを利用した攻撃調査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T08:57:01Z) - Overflow Prevention Enhances Long-Context Recurrent LLMs [81.71585057993074]
LLMの最近のトレンドは、長いコンテキスト処理効率を改善するために、再帰的なサブクワッドラティックモデルの開発である。
本研究では,大規模な長期コンテキストモデルにおいて,その固定サイズ再帰記憶が性能に与える影響について検討する。
実験の結果、これらのモデルが拡張コンテキストでトレーニングされている場合でも、長いコンテキストの使用は未利用のままであることが判明した。
論文 参考訳(メタデータ) (2025-05-12T17:45:05Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - INTACT: Inducing Noise Tolerance through Adversarial Curriculum Training for LiDAR-based Safety-Critical Perception and Autonomy [0.4124847249415279]
本稿では、雑音の多いLiDARデータに対するディープニューラルネットワーク(DNN)の堅牢性を高めるために設計された新しいフレームワークを提案する。
IntACTは、メタラーニングと、敵対的なカリキュラムトレーニング(ACT)を組み合わせることで、3Dポイントクラウドにおけるデータの破損とスパーシリティによる課題に対処する。
IntACTの有効性は、オブジェクトの検出、追跡、分類ベンチマークに関する包括的な評価を通じて実証される。
論文 参考訳(メタデータ) (2025-02-04T00:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。