論文の概要: L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling
- arxiv url: http://arxiv.org/abs/2503.04725v2
- Date: Fri, 24 Oct 2025 00:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.828843
- Title: L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling
- Title(参考訳): L$^2$M:長期言語モデリングのための相互情報スケーリング法
- Authors: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić,
- Abstract要約: 本稿では,従来の2点相互情報とは無関係に,二部間相互情報が多点間相互作用を捕捉し,スケールすることを示す。
我々は、モデルの歴史状態のスケールを低くするLong-context Language Modeling条件を定式化する。
- 参考スコア(独自算出の注目度): 14.38231752224736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a universal theoretical framework for understanding long-context language modeling based on a bipartite mutual information scaling law that we rigorously verify in natural language. We demonstrate that bipartite mutual information captures multi-token interactions distinct from and scaling independently of conventional two-point mutual information, and show that this provides a more complete characterization of the dependencies needed for accurately modeling long sequences. Leveraging this scaling law, we formulate the Long-context Language Modeling (L$^2$M) condition, which lower bounds the necessary scaling of a model's history state -- the latent variables responsible for storing past information -- for effective long-context modeling. We validate the framework and its predictions on transformer and state-space models. Our work provides a principled foundation to understand long-context modeling and to design more efficient architectures with stronger long-context capabilities, with potential applications beyond natural language.
- Abstract(参考訳): 本稿では、自然言語で厳密に検証する二部間相互情報スケーリング法則に基づいて、長文言語モデリングを理解するための普遍的理論的枠組みを提案する。
本稿では,従来の2点相互情報とは無関係に,両部間相互作用が多点間相互作用を捕捉し,拡張することを示すとともに,長いシーケンスを正確にモデル化するのに必要となる依存関係のより完全な特徴付けを提供することを示す。
このスケーリング法則を利用してLong-context Language Modeling (L$^2$M) 条件を定式化します。
我々はこのフレームワークとその予測を変換器および状態空間モデル上で検証する。
我々の研究は、長期コンテキストモデリングを理解し、より強力な長期コンテキスト機能を持つより効率的なアーキテクチャを設計し、潜在的に自然言語以外の応用を可能にする、原則化された基盤を提供する。
関連論文リスト
- Personality Prediction from Life Stories using Language Models [12.851871085845499]
本研究では,5要素モデル(FFM)の性格特性を予測するために,2000トークンを超える長話インタビューをモデル化することの課題に対処する。
まず,事前学習した言語モデルのスライディング・ウインドウ・ファインタニングを用いてコンテキスト埋め込みを抽出し,長期依存性を統合し,解釈可能性を高めるための注意機構を備えたリカレントニューラルネットワーク(RNN)を適用する。
論文 参考訳(メタデータ) (2025-06-24T02:39:06Z) - Language Models Are Implicitly Continuous [5.445513969959226]
本研究では,トランスフォーマーに基づく言語モデルにおいて,文を連続時間関数として表現することを暗黙的に学習することを示す。
この現象は、Llama2、Llama3、Phi3、Gemma、Gemma2、Mistralなど、最先端のLarge Language Models (LLMs) で起きている。
論文 参考訳(メタデータ) (2025-04-04T21:01:20Z) - Explaining Context Length Scaling and Bounds for Language Models [32.61464977485449]
本稿では,文脈長が言語モデリングに与える影響を説明する理論的枠組みを提案する。
我々は、自然言語と合成データの実験を行い、提案した理論的仮定と推論を検証する。
我々のフレームワークは、トレーニングデータセットのサイズが最適なコンテキスト長を規定し、特定のケースに対してコンテキスト長のスケーリングを境界とするなど、実践的な洞察を提供することができる。
論文 参考訳(メタデータ) (2025-02-03T16:16:15Z) - Stuffed Mamba: Oversized States Lead to the Inability to Forget [69.36377985746878]
Mambaベースのモデルは、内蔵の忘れ物機構であっても、以前のトークンを効果的に忘れるのに苦労していることを示す。
モデルの学習に必要な最小トレーニング長は状態サイズと線形に一致し,5桁パスキーの精度向上のための最大コンテキスト長は状態サイズと指数関数的に一致した。
我々の研究は、将来のRNN設計は、状態サイズ、トレーニング期間、長いコンテキストタスクにおいて堅牢なパフォーマンスを達成するためのメカニズムを忘れることの間の相互作用を考慮しなければならないことを示唆している。
論文 参考訳(メタデータ) (2024-10-09T17:54:28Z) - Context versus Prior Knowledge in Language Models [49.17879668110546]
言語モデルは、事前学習中に学んだ事前知識と、文脈で提示された新しい情報を統合する必要があることが多い。
本稿では,モデルがコンテキストと先行するエンティティへの依存性を測定するための2つの相互情報ベースメトリクスを提案する。
論文 参考訳(メタデータ) (2024-04-06T13:46:53Z) - On the Scaling Laws of Geographical Representation in Language Models [0.11510009152620666]
地理的知識は,小さなモデルであっても観測可能であること,モデルのサイズが大きくなるにつれて連続的に拡張可能であることを示す。
特に、より大規模な言語モデルでは、トレーニングデータに固有の地理的バイアスを緩和できない。
論文 参考訳(メタデータ) (2024-02-29T18:04:11Z) - Formal Aspects of Language Modeling [74.16212987886013]
大規模言語モデルは最も一般的なNLP発明の1つとなっている。
これらのノートは、ETH Z "urich course on large language model" の理論的部分の伴奏である。
論文 参考訳(メタデータ) (2023-11-07T20:21:42Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - A Survey on Long Text Modeling with Transformers [106.50471784909212]
本稿では,Transformerモデルに基づく長文モデリングの最近の進歩について概説する。
長さ制限を満たすために長い入力を処理し、改良されたTransformerアーキテクチャを設計する方法について論じる。
本稿では,長文モデリングに関わる4つの典型的な応用について述べるとともに,今後の方向性を議論する。
論文 参考訳(メタデータ) (2023-02-28T11:34:30Z) - Black-box language model explanation by context length probing [7.526153863886609]
本稿では、因果言語モデルのための新しい説明手法である文脈長探索について述べる。
この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。
事前学習された大規模言語モデルに文脈長探索を適用し、初期分析と洞察を提供する。
論文 参考訳(メタデータ) (2022-12-30T16:24:10Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。