論文の概要: Short-Context Dominance: How Much Local Context Natural Language Actually Needs?
- arxiv url: http://arxiv.org/abs/2512.08082v1
- Date: Mon, 08 Dec 2025 22:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.743353
- Title: Short-Context Dominance: How Much Local Context Natural Language Actually Needs?
- Title(参考訳): 短所支配: ローカルなコンテキスト自然言語は実際どのくらい必要か?
- Authors: Vala Vakilian, Zimeng Wang, Ankit Singh Rawat, Christos Thrampoulidis,
- Abstract要約: 正確な全文予測を再現するのに必要となる最小コンテキスト長を計測する。
長文文書から1-7kのトークンを持つシーケンスの場合、75-80%は最下位96トークンしか必要としない。
そこで本研究では,実際の次点知識を必要としないMCL(Distributedally Aware MCL)の実践的プロキシについて紹介する。
- 参考スコア(独自算出の注目度): 48.429870236229696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the short-context dominance hypothesis: that for most sequences, a small local prefix suffices to predict their next tokens. Using large language models as statistical oracles, we measure the minimum context length (MCL) needed to reproduce accurate full-context predictions across datasets with sequences of varying lengths. For sequences with 1-7k tokens from long-context documents, we consistently find that 75-80% require only the last 96 tokens at most. Given the dominance of short-context tokens, we then ask whether it is possible to detect challenging long-context sequences for which a short local prefix does not suffice for prediction. We introduce a practical proxy to MCL, called Distributionally Aware MCL (DaMCL), that does not require knowledge of the actual next-token and is compatible with sampling strategies beyond greedy decoding. Our experiments validate that simple thresholding of the metric defining DaMCL achieves high performance in detecting long vs. short context sequences. Finally, to counter the bias that short-context dominance induces in LLM output distributions, we develop an intuitive decoding algorithm that leverages our detector to identify and boost tokens that are long-range-relevant. Across Q&A tasks and model architectures, we confirm that mitigating the bias improves performance.
- Abstract(参考訳): 短文支配仮説を考察し、ほとんどのシーケンスにおいて、小さな局所接頭辞が次のトークンを予測するのに十分であることを示す。
大規模言語モデルを統計的オラクルとして用い, 異なる長さの列を持つデータセット間で正確な全コンテキスト予測を再現するために必要な最小コンテキスト長(MCL)を測定する。
長文文書から1-7kのトークンを持つシーケンスの場合、75-80%は最下位96トークンしか必要としない。
短文トークンの優位性を考えると、短い局所接頭辞が予測に十分でない長文列を検出できるかどうかを問う。
本研究では,MCLに現実的なプロキシを導入し,実際の次点の知識を必要とせず,強欲な復号化以上のサンプリング戦略と互換性のある分散認識型MCL(DaMCL)を提案する。
提案実験では,DAMCLの簡易しきい値設定により,長文と短文の文脈列の検出精度が向上することを確認した。
最後に,LLM出力分布において短コンテキスト支配が引き起こすバイアスに対処するため,長距離関連トークンの識別・促進に我々の検出器を利用する直感的復号アルゴリズムを開発した。
Q&Aタスクとモデルアーキテクチャ全体で、バイアスを軽減することでパフォーマンスが向上することを確認した。
関連論文リスト
- Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - XL3M: A Training-free Framework for LLM Length Extension Based on Segment-wise Inference [25.669630896777484]
本稿では,XL3Mと命名された効率的な学習自由フレームワークを提案する。これにより,短時間で訓練されたLLMが,それ以上のトレーニングや微調整を行なわずに極めて長いシーケンスを推論できる。
総合的なベンチマークによる評価は、XL3Mの優位性を示している。
論文 参考訳(メタデータ) (2024-05-28T02:12:35Z) - KNN-LM Does Not Improve Open-ended Text Generation [34.86733697757264]
検索強化言語モデル(LM)の生成品質について検討する。
検索分布の補間は, ベースライントランスフォーマーLMと比較して, 実際にパープレキシティを増大させることがわかった。
検索分布のエントロピーは、生成シーケンスが長くなるにつれて、ベースLMのエントロピーよりも速く増加する。
論文 参考訳(メタデータ) (2023-05-24T01:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。