論文の概要: FoldAct: Efficient and Stable Context Folding for Long-Horizon Search Agents
- arxiv url: http://arxiv.org/abs/2512.22733v1
- Date: Sun, 28 Dec 2025 00:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.193874
- Title: FoldAct: Efficient and Stable Context Folding for Long-Horizon Search Agents
- Title(参考訳): FoldAct: 長軸探索エージェントのための効率的で安定なコンテキストフォールディング
- Authors: Jiaqi Shao, Yufeng Miao, Wei Zhang, Bing Luo,
- Abstract要約: 大規模言語モデルのためのロングホライゾン強化学習(RL)は、コンテキスト成長から重要なスケーラビリティ課題に直面している。
既存のアプローチでは、サマリアクションを標準アクションとして扱い、サマリがエージェントの将来の観測空間を根本的に変更するのを見下ろしている。
本研究は,(1)要約トークンが不十分なトレーニング信号を受ける勾配の希釈,(2)ポリシー更新による要約分布の変更,トレーニング崩壊の悪循環の創出,(3)各ターンで独自のコンテキストを処理することによる計算コストの3つの基本的な課題を紹介する。
- 参考スコア(独自算出の注目度): 6.499612808270592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon reinforcement learning (RL) for large language models faces critical scalability challenges from unbounded context growth, leading to context folding methods that compress interaction history during task execution. However, existing approaches treat summary actions as standard actions, overlooking that summaries fundamentally modify the agent's future observation space, creating a policy-dependent, non-stationary observation distribution that violates core RL assumptions. This introduces three fundamental challenges: (1) gradient dilution where summary tokens receive insufficient training signal, (2) self-conditioning where policy updates change summary distributions, creating a vicious cycle of training collapse, and (3) computational cost from processing unique contexts at each turn. We introduce \textbf{FoldAct}\footnote{https://github.com/SHAO-Jiaqi757/FoldAct}, a framework that explicitly addresses these challenges through three key innovations: separated loss computation for independent gradient signals on summary and action tokens, full context consistency loss to reduce distribution shift, and selective segment training to reduce computational cost. Our method enables stable training of long-horizon search agents with context folding, addressing the non-stationary observation problem while improving training efficiency with 5.19$\times$ speedup.
- Abstract(参考訳): 大規模言語モデルのためのLL(Long-Horizon reinforcement learning)は、無制限の文脈成長による重要なスケーラビリティ上の課題に直面し、タスク実行中の相互作用履歴を圧縮するコンテキスト折り畳み手法がもたらされる。
しかし、既存のアプローチでは、サマリアクションを標準アクションとして扱い、サマリがエージェントの将来の観測空間を根本的に変更し、コアRLの仮定に反するポリシーに依存しない非定常的な観測分布を作り出すことを見越して、サマリアクションを標準アクションとして扱う。
本研究は,(1)要約トークンが不十分なトレーニング信号を受ける勾配の希釈,(2)ポリシー更新による要約分布の変更,トレーニング崩壊の悪循環の創出,(3)各ターンで独自のコンテキストを処理することによる計算コストの3つの基本的な課題を紹介する。
このフレームワークは,要約とアクショントークン上の独立勾配信号に対する損失計算,分散シフトを低減するための完全なコンテキスト整合性損失,計算コストを削減するための選択セグメントトレーニング,という3つの重要なイノベーションを通じて,これらの課題に明示的に対処する。
提案手法は, 定常観測問題に対処しつつ, 5.19$\times$ Speedup によるトレーニング効率の向上を図りながら, コンテキスト折り畳み付き長軸探索エージェントの安定した訓練を可能にする。
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Don't Just Fine-tune the Agent, Tune the Environment [25.7349297100143]
合成データの微調整の監督は、過度な適合につながる。
標準的な強化学習は、重要なコールドスタート問題とトレーニング不安定性に苦慮している。
本研究は,静的軌道の教師付き微調整から動的環境探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-10-11T12:35:15Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Task Agnostic Representation Consolidation: a Self-supervised based
Continual Learning Approach [14.674494335647841]
本稿では,タスク非依存およびタスク特化学習に介入するCLのための2段階学習パラダイムを提案する。
我々のトレーニングパラダイムは、メモリや正規化に基づくアプローチに簡単に追加できることを示します。
論文 参考訳(メタデータ) (2022-07-13T15:16:51Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。