論文の概要: Beyond Length: Quantifying Long-Range Information for Long-Context LLM Pretraining Data
- arxiv url: http://arxiv.org/abs/2510.25804v1
- Date: Wed, 29 Oct 2025 06:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.499028
- Title: Beyond Length: Quantifying Long-Range Information for Long-Context LLM Pretraining Data
- Title(参考訳): 長さを超える:長期LLM事前学習データのための長距離情報の定量化
- Authors: Haoran Deng, Yingyu Lin, Zhenghao Lin, Xiao Liu, Yizhou Sun, Yi-An Ma, Yeyun Gong,
- Abstract要約: 我々はLongFilterを紹介した。LongFilterは、長文事前学習に適したトレーニングデータをキュレートするフレームワークである。
LongFilterは、長いコンテキスト下でのモデル予測と短いコンテキスト設定の対比によって、拡張コンテキストによって提供される情報ゲインを測定する。
LLaMA-3-8Bによる実験は、コンテキスト長を8Kから64Kに拡張し、LongFilterが効率よく高品質のデータを選択し、HELMET、LongBench、RULERなどのベンチマークで大幅に改善されていることを示している。
- 参考スコア(独自算出の注目度): 67.46386646195818
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long-context language models unlock advanced capabilities in reasoning, code generation, and document summarization by leveraging dependencies across extended spans of text. However, a significant portion of readily available long-text data lacks meaningful long-distance dependencies; most spans can be predicted using only local context. Training on such data is inefficient, making careful data selection crucial. Therefore, we introduce LongFilter, a framework for curating training data tailored to long-context pretraining. LongFilter measures the information gain provided by extended context by contrasting model predictions under long-context versus short-context settings, thereby identifying samples where long-range dependencies are essential. Experiments with LLaMA-3-8B, extending its context length from 8K to 64K, show that LongFilter efficiently selects high-quality data and yields substantial improvements on benchmarks such as HELMET, LongBench, and RULER.
- Abstract(参考訳): 長文言語モデルは、拡張されたテキストスパンにわたる依存関係を活用することによって、推論、コード生成、ドキュメント要約の高度な機能をアンロックする。
しかし、利用可能な長文データのかなりの部分は有意義な長距離依存を欠いているため、ほとんどのスパンはローカルコンテキストのみを使用して予測できる。
このようなデータのトレーニングは非効率であり、慎重なデータ選択が不可欠である。
そこで,LongFilterを紹介した。LongFilterは長文事前学習に適したトレーニングデータをキュレートするフレームワークである。
LongFilterは、長期コンテキストと短コンテキスト設定のモデル予測を対比することにより、拡張コンテキストによって提供される情報ゲインを測定し、長距離依存が不可欠であるサンプルを特定する。
LLaMA-3-8Bによる実験は、コンテキスト長を8Kから64Kに拡張し、LongFilterが効率よく高品質のデータを選択し、HELMET、LongBench、RULERなどのベンチマークで大幅に改善されていることを示している。
関連論文リスト
- LongAttn: Selecting Long-context Training Data via Token-level Attention [16.30530770590871]
LongAttnはトークンレベルのフレームワークで、データの長距離依存関係を測定する。
オープンソース長文データセット(ArXiv, Book, Code)からLongABC-32Kをフィルタリングする
論文 参考訳(メタデータ) (2025-02-24T05:51:53Z) - NExtLong: Toward Effective Long-Context Training without Long Documents [28.002824369635768]
我々はNextLongを提案する。NextLongは、Negative Document Extensionを通じて、長文データのための新しいフレームワークである。
NExtLongは文書を複数のメタチャンクに分解し、事前学習したコーパスから取得したハードネガティブなイントラクタをインターリーブすることによってコンテキストを拡張する。
大規模な実験により、NExtLongは既存の長文合成手法と比較して、大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-22T10:01:54Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。