論文の概要: EntropyLong: Effective Long-Context Training via Predictive Uncertainty
- arxiv url: http://arxiv.org/abs/2510.02330v1
- Date: Fri, 26 Sep 2025 02:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.00265
- Title: EntropyLong: Effective Long-Context Training via Predictive Uncertainty
- Title(参考訳): EntropyLong:予測不確実性による効果的な長期トレーニング
- Authors: Junlong Jia, Ziyang Chen, Xing Wu, Chaochen Gao, Zijia Lin, Debing Zhang, Songlin Hu, Binghui Guo,
- Abstract要約: 長距離依存関係をキャプチャするための長期コンテキスト言語モデルのトレーニングには、特別なデータ構築が必要である。
本研究では,予測不確実性を利用して依存性の品質を検証する新しいデータ構築手法であるEntropyを提案する。
提案手法は,文書中の高エントロピー位置を特定し,大規模コーパスから意味論的に関連づけられたコンテキストを抽出し,予測エントロピーを減少させるかどうかを判断して有用性を検証する。
- 参考スコア(独自算出の注目度): 32.39649991665767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training long-context language models to capture long-range dependencies requires specialized data construction. Current approaches, such as generic text concatenation or heuristic-based variants, frequently fail to guarantee genuine long-range dependencies. We propose EntropyLong, a novel data construction method that leverages predictive uncertainty to verify dependency quality. Our approach identifies high-entropy positions in documents, retrieves semantically relevant contexts from large corpora, and verifies their utility by assessing whether they reduce prediction entropy. This model-in-the-loop verification ensures each dependency represents measurable information gain rather than spurious correlation. We construct training samples with long-range dependencies by combining original documents with these verified contextual supplements. Using FineWebEdu and Cosmopedia, we generate a dataset of 128K-length sequences with verified dependencies. Models trained on this data demonstrate significant improvements on RULER benchmarks, particularly in tasks requiring distant information. Following instruction fine-tuning, our models also achieve substantial gains on LongBenchv2, demonstrating enhanced long-context understanding. Extensive ablation studies further validate the necessity and effectiveness of entropybased verification for long-context training.
- Abstract(参考訳): 長距離依存関係をキャプチャするための長期コンテキスト言語モデルのトレーニングには、特別なデータ構築が必要である。
ジェネリックテキスト結合やヒューリスティックベースの変種といった現在のアプローチは、真の長距離依存を保証できないことが多い。
本研究では,予測不確実性を利用して依存性の品質を検証する新しいデータ構築手法であるEntropyLongを提案する。
提案手法は,文書中の高エントロピー位置を特定し,大規模コーパスから意味論的に関連づけられたコンテキストを抽出し,予測エントロピーを減少させるかどうかを判断して有用性を検証する。
このモデル・イン・ザ・ループの検証により、各依存関係は素早い相関ではなく、測定可能な情報ゲインを表す。
我々は、これらの検証済みコンテキストサプリメントと原文書を組み合わせることで、長距離依存によるトレーニングサンプルを構築した。
FineWebEduとCosmopediaを使って、検証された依存関係を持つ128Kのシーケンスのデータセットを生成する。
このデータに基づいてトレーニングされたモデルは、特に遠い情報を必要とするタスクにおいて、RULERベンチマークで大幅に改善されている。
命令の微調整により,LongBenchv2の精度が向上し,長文理解が向上した。
広範囲にわたるアブレーション研究は、長期学習におけるエントロピーに基づく検証の必要性と有効性をさらに検証する。
関連論文リスト
- GATEAU: Selecting Influential Samples for Long Context Alignment [59.579128690086385]
GATEAUは、長距離依存関係に富む影響力のあるサンプルを同定する。
選択されたサンプルに基づいて訓練されたモデルは、より良い指示追従と長文理解能力を示す。
論文 参考訳(メタデータ) (2024-10-21T04:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。