論文の概要: L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling
- arxiv url: http://arxiv.org/abs/2503.04725v1
- Date: Thu, 06 Mar 2025 18:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:40.520799
- Title: L$^2$M: Mutual Information Scaling Law for Long-Context Language Modeling
- Title(参考訳): L$^2$M:長期言語モデリングのための相互情報スケーリング法
- Authors: Zhuo Chen, Oriol Mayné i Comas, Zhuotao Jin, Di Luo, Marin Soljačić,
- Abstract要約: 我々は、長距離依存を管理する自然言語において、二分的相互情報スケーリング法を厳格に確立する。
我々は,過去情報を記憶するための潜在状態の大きさのスケーリングと,有効長コンテキスト長モデリングのためのモデルのキャパシティを関連づけたLong-context Language Modeling条件を定式化する。
- 参考スコア(独自算出の注目度): 5.283885355422517
- License:
- Abstract: We rigorously establish a bipartite mutual information scaling law in natural language that governs long-range dependencies. This scaling law, which we show is distinct from and scales independently of the conventional two-point mutual information, is the key to understanding long-context language modeling. Using this scaling law, we formulate the Long-context Language Modeling (L$^2$M) condition, which relates a model's capacity for effective long context length modeling to the scaling of its latent state size for storing past information. Our results are validated through experiments on both transformers and state space models. This work establishes a theoretical foundation that guides the development of large language models toward longer context lengths.
- Abstract(参考訳): 我々は,長距離依存を規定する自然言語における二分的相互情報スケーリング法を厳格に確立する。
このスケーリング法則は、従来の2点相互情報とは独立して拡張され、長文言語モデリングを理解するための鍵となる。
このスケーリング法則を用いて,有効長コンテキスト長モデリングのためのモデルのキャパシティと,過去の情報を記憶するための潜在状態サイズのスケーリングを関連づけるLong-context Language Modeling (L$^2$M) 条件を定式化する。
この結果は、トランスモデルと状態空間モデルの両方の実験によって検証される。
この研究は、より大きな言語モデルの開発を長い文脈長へと導く理論的基盤を確立する。
関連論文リスト
- Explaining Context Length Scaling and Bounds for Language Models [32.61464977485449]
本稿では,文脈長が言語モデリングに与える影響を説明する理論的枠組みを提案する。
我々は、自然言語と合成データの実験を行い、提案した理論的仮定と推論を検証する。
我々のフレームワークは、トレーニングデータセットのサイズが最適なコンテキスト長を規定し、特定のケースに対してコンテキスト長のスケーリングを境界とするなど、実践的な洞察を提供することができる。
論文 参考訳(メタデータ) (2025-02-03T16:16:15Z) - Context versus Prior Knowledge in Language Models [49.17879668110546]
言語モデルは、事前学習中に学んだ事前知識と、文脈で提示された新しい情報を統合する必要があることが多い。
本稿では,モデルがコンテキストと先行するエンティティへの依存性を測定するための2つの相互情報ベースメトリクスを提案する。
論文 参考訳(メタデータ) (2024-04-06T13:46:53Z) - On the Scaling Laws of Geographical Representation in Language Models [0.11510009152620666]
地理的知識は,小さなモデルであっても観測可能であること,モデルのサイズが大きくなるにつれて連続的に拡張可能であることを示す。
特に、より大規模な言語モデルでは、トレーニングデータに固有の地理的バイアスを緩和できない。
論文 参考訳(メタデータ) (2024-02-29T18:04:11Z) - Critical Data Size of Language Models from a Grokking Perspective [35.029074833552656]
我々は、グラッキング構成下での位相遷移をデータ効率仮説に定式化する。
一般化は言語モデルが臨界サイズに達する場合にのみ起こることを示す。
その結果,言語モデルの学習メカニズムにおけるデータの役割について,新たな視点を提供するとともに,言語モデル学習の理解を深めることができた。
論文 参考訳(メタデータ) (2024-01-19T03:24:36Z) - Formal Aspects of Language Modeling [74.16212987886013]
大規模言語モデルは最も一般的なNLP発明の1つとなっている。
これらのノートは、ETH Z "urich course on large language model" の理論的部分の伴奏である。
論文 参考訳(メタデータ) (2023-11-07T20:21:42Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Black-box language model explanation by context length probing [7.526153863886609]
本稿では、因果言語モデルのための新しい説明手法である文脈長探索について述べる。
この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。
事前学習された大規模言語モデルに文脈長探索を適用し、初期分析と洞察を提供する。
論文 参考訳(メタデータ) (2022-12-30T16:24:10Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。