論文の概要: EntropyLong: Effective Long-Context Training via Predictive Uncertainty
- arxiv url: http://arxiv.org/abs/2510.02330v1
- Date: Fri, 26 Sep 2025 02:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.00265
- Title: EntropyLong: Effective Long-Context Training via Predictive Uncertainty
- Title(参考訳): EntropyLong:予測不確実性による効果的な長期トレーニング
- Authors: Junlong Jia, Ziyang Chen, Xing Wu, Chaochen Gao, Zijia Lin, Debing Zhang, Songlin Hu, Binghui Guo,
- Abstract要約: 長距離依存関係をキャプチャするための長期コンテキスト言語モデルのトレーニングには、特別なデータ構築が必要である。
本研究では,予測不確実性を利用して依存性の品質を検証する新しいデータ構築手法であるEntropyを提案する。
提案手法は,文書中の高エントロピー位置を特定し,大規模コーパスから意味論的に関連づけられたコンテキストを抽出し,予測エントロピーを減少させるかどうかを判断して有用性を検証する。
- 参考スコア(独自算出の注目度): 32.39649991665767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training long-context language models to capture long-range dependencies requires specialized data construction. Current approaches, such as generic text concatenation or heuristic-based variants, frequently fail to guarantee genuine long-range dependencies. We propose EntropyLong, a novel data construction method that leverages predictive uncertainty to verify dependency quality. Our approach identifies high-entropy positions in documents, retrieves semantically relevant contexts from large corpora, and verifies their utility by assessing whether they reduce prediction entropy. This model-in-the-loop verification ensures each dependency represents measurable information gain rather than spurious correlation. We construct training samples with long-range dependencies by combining original documents with these verified contextual supplements. Using FineWebEdu and Cosmopedia, we generate a dataset of 128K-length sequences with verified dependencies. Models trained on this data demonstrate significant improvements on RULER benchmarks, particularly in tasks requiring distant information. Following instruction fine-tuning, our models also achieve substantial gains on LongBenchv2, demonstrating enhanced long-context understanding. Extensive ablation studies further validate the necessity and effectiveness of entropybased verification for long-context training.
- Abstract(参考訳): 長距離依存関係をキャプチャするための長期コンテキスト言語モデルのトレーニングには、特別なデータ構築が必要である。
ジェネリックテキスト結合やヒューリスティックベースの変種といった現在のアプローチは、真の長距離依存を保証できないことが多い。
本研究では,予測不確実性を利用して依存性の品質を検証する新しいデータ構築手法であるEntropyLongを提案する。
提案手法は,文書中の高エントロピー位置を特定し,大規模コーパスから意味論的に関連づけられたコンテキストを抽出し,予測エントロピーを減少させるかどうかを判断して有用性を検証する。
このモデル・イン・ザ・ループの検証により、各依存関係は素早い相関ではなく、測定可能な情報ゲインを表す。
我々は、これらの検証済みコンテキストサプリメントと原文書を組み合わせることで、長距離依存によるトレーニングサンプルを構築した。
FineWebEduとCosmopediaを使って、検証された依存関係を持つ128Kのシーケンスのデータセットを生成する。
このデータに基づいてトレーニングされたモデルは、特に遠い情報を必要とするタスクにおいて、RULERベンチマークで大幅に改善されている。
命令の微調整により,LongBenchv2の精度が向上し,長文理解が向上した。
広範囲にわたるアブレーション研究は、長期学習におけるエントロピーに基づく検証の必要性と有効性をさらに検証する。
関連論文リスト
- Document Reconstruction Unlocks Scalable Long-Context RLVR [60.74632963522131]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の機能強化(長文)のための重要なパラダイムとなっている。
我々は,LLMの長期的文脈能力を高めるための教師なしのアプローチについて検討し,重度の人的アノテーションや教師モデルの監督の必要性を排除した。
提案手法の有効性をRULERとLongBenchv2の2つのベンチマークで検証した。
論文 参考訳(メタデータ) (2026-02-09T03:23:23Z) - LongAttn: Selecting Long-context Training Data via Token-level Attention [16.30530770590871]
LongAttnはトークンレベルのフレームワークで、データの長距離依存関係を測定する。
オープンソース長文データセット(ArXiv, Book, Code)からLongABC-32Kをフィルタリングする
論文 参考訳(メタデータ) (2025-02-24T05:51:53Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - GATEAU: Selecting Influential Samples for Long Context Alignment [59.579128690086385]
GATEAUは、長距離依存関係に富む影響力のあるサンプルを同定する。
選択されたサンプルに基づいて訓練されたモデルは、より良い指示追従と長文理解能力を示す。
論文 参考訳(メタデータ) (2024-10-21T04:30:53Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。