論文の概要: PolicyLong: Towards On-Policy Context Extension
- arxiv url: http://arxiv.org/abs/2604.07809v1
- Date: Thu, 09 Apr 2026 05:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.705927
- Title: PolicyLong: Towards On-Policy Context Extension
- Title(参考訳): PolicyLong: オンプレミスのコンテキスト拡張を目指す
- Authors: Junlong Jia, Ziyang Chen, Xing Wu, Chaochen Gao, TingHao Yu, Feng Zhang, Songlin Hu,
- Abstract要約: 本稿では,データ構築を動的なオン・ポリティクスパラダイムにシフトするポリシLongを提案する。
データスクリーニングを反復的に再実行することで、PolicyLongは、進化する能力のトレーニングディストリビューショントラックを保証する。
PolicyLong は EntropyLong と NExtLong を一貫して上回っている。
- 参考スコア(独自算出の注目度): 23.33185151859789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending LLM context windows is hindered by scarce high-quality long-context data. Recent methods synthesize data with genuine long-range dependencies via information-theoretic verification, selecting contexts that reduce a base model's predictive entropy. However, their single-pass offline construction with a fixed model creates a fundamental off-policy gap: the static screening landscape misaligns with the model's evolving capabilities, causing the training distribution to drift. We propose PolicyLong, shifting data construction towards a dynamic on-policy paradigm. By iteratively re-executing data screening (entropy computation, retrieval, and verification) using the current model, PolicyLong ensures the training distribution tracks evolving capabilities, yielding an emergent self-curriculum. Crucially, both positive and hard negative contexts derive from the current model's entropy landscape, co-evolving what the model learns to exploit and resist. Experiments on RULER, HELMET, and LongBench-v2 (Qwen2.5-3B) show PolicyLong consistently outperforms EntropyLong and NExtLong, with gains growing at longer contexts (e.g., +2.54 at 128K on RULER), confirming the value of on-policy data evolution.
- Abstract(参考訳): LLMコンテキストウィンドウの拡張は、高品質な長文データが少ないことで妨げられる。
近年の手法では,情報理論による検証により,ベースモデルの予測エントロピーを減少させるコンテキストを選択することによって,真の長距離依存性を持つデータを合成している。
静的スクリーニングのランドスケープはモデルの進化する能力と不一致であり、トレーニング分布がドリフトする。
本稿では,データ構築を動的なオン・ポリティクスパラダイムにシフトするポリシLongを提案する。
現行のモデルを用いてデータスクリーニング(エントロピー計算、検索、検証)を反復的に再実行することにより、PolicyLongは、トレーニング分散トラックの進化能力を保証し、創発的な自己カリキュラムを生成する。
決定的に、正の文脈と強の文脈は、現在のモデルのエントロピーの景観から派生し、モデルが活用し抵抗するために学んだことを共進化させる。
RULER、HELMET、LongBench-v2(Qwen2.5-3B)の実験では、PhysyLongはEntropyLongとNExtLongより一貫して優れており、RULER上で128Kで128Kでゲインが増加し、オン・ポリティクスデータの進化の価値が確認されている。
関連論文リスト
- Entropy-Guided Token Dropout: Training Autoregressive Language Models with Limited Domain Data [89.96277093034547]
本研究では,エントロピー誘導型トークンドロップアウト方式であるEntroDropを導入する。
本稿では,EntroDropが標準正規化ベースラインを一貫して上回り,拡張型マルチエポックトレーニングを通じて堅牢な性能を維持していることを示す。
論文 参考訳(メタデータ) (2025-12-29T12:35:51Z) - Scalable Offline Model-Based RL with Action Chunks [60.80151356018376]
モデルに基づく強化学習が、オフラインRLにおける複雑で長期のタスクに対処するためのスケーラブルなレシピを提供するかどうかを検討する。
我々はこのレシピを textbfModel-based RL with Action Chunks (MAC) と呼ぶ。
MAC はオフラインモデルベース RL アルゴリズムの中で,特に長期的タスクにおいて,最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-12-08T23:26:29Z) - Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。
MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。
MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文 参考訳(メタデータ) (2025-11-26T17:01:41Z) - Towards Monotonic Improvement in In-Context Reinforcement Learning [18.67894044930047]
In-Context Reinforcement Learning (ICRL)は、新しいタスクに迅速に適応できるエージェントを開発するための有望なパラダイムとして登場した。
最近のアプローチでは、オンラインRLからモノトニックポリシー改善データに関する大規模なシーケンスモデルをトレーニングしており、テスト時間のパフォーマンスを継続的に改善することを目指している。
学習時間とテスト時間の両方でコンテキスト値を推定する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-09-27T09:42:19Z) - EntropyLong: Effective Long-Context Training via Predictive Uncertainty [32.39649991665767]
長距離依存関係をキャプチャするための長期コンテキスト言語モデルのトレーニングには、特別なデータ構築が必要である。
本研究では,予測不確実性を利用して依存性の品質を検証する新しいデータ構築手法であるEntropyを提案する。
提案手法は,文書中の高エントロピー位置を特定し,大規模コーパスから意味論的に関連づけられたコンテキストを抽出し,予測エントロピーを減少させるかどうかを判断して有用性を検証する。
論文 参考訳(メタデータ) (2025-09-26T02:38:08Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。
MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。
D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-03-26T07:24:34Z) - Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy [13.819070455425075]
我々は、すべての歴史的政策に対する経験的状態-行動訪問分布に適合するダイナミクスモデルを学習する。
そこで我々はtextitPolicy-adapted Dynamics Model Learning (PDML) という新しい動的モデル学習手法を提案する。
MuJoCoにおける一連の連続制御環境の実験では、PDMLは、最先端のモデルベースRL法と組み合わせて、サンプル効率と高い性能で大幅に改善されている。
論文 参考訳(メタデータ) (2022-07-25T12:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。