論文の概要: Explaining Context Length Scaling and Bounds for Language Models
- arxiv url: http://arxiv.org/abs/2502.01481v2
- Date: Sun, 09 Feb 2025 09:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:26:55.574811
- Title: Explaining Context Length Scaling and Bounds for Language Models
- Title(参考訳): 言語モデルにおけるコンテキスト長のスケーリングと境界について
- Authors: Jingzhe Shi, Qinwei Ma, Hongyi Liu, Hang Zhao, Jeng-Neng Hwang, Serge Belongie, Lei Li,
- Abstract要約: 本稿では,文脈長が言語モデリングに与える影響を説明する理論的枠組みを提案する。
我々は、自然言語と合成データの実験を行い、提案した理論的仮定と推論を検証する。
我々のフレームワークは、トレーニングデータセットのサイズが最適なコンテキスト長を規定し、特定のケースに対してコンテキスト長のスケーリングを境界とするなど、実践的な洞察を提供することができる。
- 参考スコア(独自算出の注目度): 32.61464977485449
- License:
- Abstract: Long Context Language Models have drawn great attention in the past few years. There has been work discussing the impact of long context on Language Model performance: some find that long irrelevant context could harm performance, while some experimentally summarize loss reduction by relevant long context as Scaling Laws. This calls for a more thorough understanding on how long context impact Language Modeling. In this work, we (1) propose a clean and effective theoretical framework on explaining the impact of context length to Language Modeling, from an Intrinsic Space perspective; and (2) conduct experiments on natural language and synthetic data, validating our proposed theoretical assumptions and deductions. Our theoretical framework can provide practical insights such as establishing that training dataset size dictates an optimal context length and bounds context length scaling for certain case. We hope our work may inspire new long context Language Models, as well as future work studying Physics for Language Models. Code for our experiments is available at this url: https://github.com/JingzheShi/NLPCtlScalingAndBounds.
- Abstract(参考訳): 長いコンテキスト言語モデルは、ここ数年で大きな注目を集めています。
長いコンテキストが言語モデルのパフォーマンスに与える影響について議論する作業がある: 長い無関係なコンテキストがパフォーマンスに悪影響を及ぼすと見る者もいれば、関連する長期コンテキストによる損失削減をスケーリング法則として実験的に要約する者もいる。
これにより、Language Modelingにどのくらいの期間が影響するかをより深く理解する必要がある。
本研究では,(1)内在的空間の観点から,文脈長が言語モデリングに与える影響を説明するためのクリーンで効果的な理論的枠組みを提案し,(2)自然言語と合成データに関する実験を行い,提案した理論的仮定と推論を検証した。
我々の理論的フレームワークは、トレーニングデータセットのサイズが最適なコンテキスト長を規定し、特定のケースに対してコンテキスト長のスケーリングを境界とするなど、実践的な洞察を提供することができる。
我々は、我々の研究が新しい長期の言語モデル、および将来の言語モデルのための物理学の研究に刺激を与えることを期待している。
このurl.com/JingzheShi/NLPCtlScalingAndBounds.comは、我々の実験用のコードです。
関連論文リスト
- Towards a theory of how the structure of language is acquired by deep neural networks [6.363756171493383]
木のような生成モデルを用いて、自然言語で見られる階層構造の多くをキャプチャする。
トークンとトークンの相関は文法の隠れ変数の表現を構築するのに有効であることを示す。
トレーニングセットのサイズと効果的な相関範囲の関係は、我々の合成データセットを超えていると推測する。
論文 参考訳(メタデータ) (2024-05-28T17:01:22Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Lost in the Middle: How Language Models Use Long Contexts [88.78803442320246]
本研究では,言語モデルの性能を2つのタスクで解析する。
関連する情報の位置を変えると,性能が著しく低下することがわかった。
我々の分析は、言語モデルが入力コンテキストをどのように使用するかをよりよく理解し、将来の長文言語モデルのための新しい評価プロトコルを提供する。
論文 参考訳(メタデータ) (2023-07-06T17:54:11Z) - Black-box language model explanation by context length probing [7.526153863886609]
本稿では、因果言語モデルのための新しい説明手法である文脈長探索について述べる。
この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。
事前学習された大規模言語モデルに文脈長探索を適用し、初期分析と洞察を提供する。
論文 参考訳(メタデータ) (2022-12-30T16:24:10Z) - Integrating Linguistic Theory and Neural Language Models [2.870517198186329]
理論的言語学とニューラル言語モデルが相互にどのように関係しているかを説明するためのケーススタディをいくつか提示する。
この論文は、言語モデルにおける構文意味インタフェースの異なる側面を探求する3つの研究に貢献する。
論文 参考訳(メタデータ) (2022-07-20T04:20:46Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。