論文の概要: What Kinds of Tokens Benefit from Distant Text? An Analysis on Long Context Language Modeling
- arxiv url: http://arxiv.org/abs/2406.11238v1
- Date: Mon, 17 Jun 2024 06:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:14:15.055015
- Title: What Kinds of Tokens Benefit from Distant Text? An Analysis on Long Context Language Modeling
- Title(参考訳): 遠隔テキストから得られる利得の種類について : 長期文脈言語モデリングによる分析
- Authors: Yutong Hu, Quzhe Huang, Kangcheng Luo, Yansong Feng,
- Abstract要約: 言語モデルにおいて,どの単語が長い文脈からより恩恵を受けるかを検討する。
内容語(名詞、形容詞など)と最初の単語のトークンが最も役立ちます。
また、より長い文脈で言語モデルがより自信を持ち、よりシャープな確率分布が生まれることを観察する。
- 参考スコア(独自算出の注目度): 27.75379365518913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the context length that large language models can handle continues to increase, these models demonstrate an enhanced ability to utilize distant information for tasks such as language modeling. This capability contrasts with human reading and writing habits, where it is uncommon to remember and use particularly distant information, except in cases of foreshadowing. In this paper, we aim to explore which kinds of words benefit more from long contexts in language models. By analyzing the changes in token probabilities with increasing context length, we find that content words (e.g., nouns, adjectives) and the initial tokens of words benefit the most. Frequent patterns in the context (N-grams) also significantly impact predictions. Additionally, the model's prior knowledge plays a crucial role in influencing predictions, especially for rare tokens. We also observe that language models become more confident with longer contexts, resulting in sharper probability distributions. This overconfidence may contribute to the increasing probabilities of tokens with distant contextual information. We hope that our analysis will help the community better understand long-text language modeling and contribute to the design of more reliable long-context models.
- Abstract(参考訳): 大規模言語モデルで扱える文脈長は増加し続けており、これらのモデルは言語モデリングのようなタスクに遠隔情報を利用する能力の強化を実証している。
この能力は人間の読み書きの習慣とは対照的であり、特に先駆的な場合を除き、特に遠方の情報を記憶して使うことは珍しくない。
本稿では,言語モデルにおける長期的文脈から,どの単語がより恩恵を受けるかを検討することを目的とする。
コンテントワード(例えば名詞,形容詞,形容詞)と単語の初期トークンは,文脈長の増加に伴うトークン確率の変化を分析することにより,最も有益であることがわかった。
文脈における頻繁なパターン(N-gram)も予測に大きな影響を及ぼす。
さらに、モデルの事前知識は、特に希少なトークンに対して、予測に影響を与える重要な役割を果たす。
また、より長い文脈で言語モデルがより自信を持ち、よりシャープな確率分布が生まれることを観察する。
この過信は、遠い文脈情報を持つトークンの確率の増大に寄与する可能性がある。
我々の分析によって、コミュニティが長文言語モデリングをより深く理解し、より信頼性の高い長文モデルの設計に貢献できることを期待しています。
関連論文リスト
- The Impact of Token Granularity on the Predictive Power of Language Model Surprisal [15.073507986272027]
認知モデリングにおいて見過ごされてきた要素の1つは、サブワードトークンの粒度である。
自然主義的読解時間を用いた実験は、トークンの粒度が副次的に与える影響を顕著に示している。
ガーデンパスの構成では、粗い粒度のトークンで訓練された言語モデルが、一般に臨界領域に対して高い確率を割り当てた。
論文 参考訳(メタデータ) (2024-12-16T16:24:58Z) - Lost in the Middle: How Language Models Use Long Contexts [88.78803442320246]
本研究では,言語モデルの性能を2つのタスクで解析する。
関連する情報の位置を変えると,性能が著しく低下することがわかった。
我々の分析は、言語モデルが入力コンテキストをどのように使用するかをよりよく理解し、将来の長文言語モデルのための新しい評価プロトコルを提供する。
論文 参考訳(メタデータ) (2023-07-06T17:54:11Z) - Language Model Behavior: A Comprehensive Survey [5.663056267168211]
本稿では,タスク固有の微調整前における英語モデル行動に関する最近の250以上の研究について論じる。
モデルが数十億のパラメータにスケールするにつれて、生成テキストの品質は劇的に向上するが、モデルはまだ、非現実的な応答、常識的エラー、暗記されたテキスト、社会的偏見の傾向にある。
論文 参考訳(メタデータ) (2023-03-20T23:54:26Z) - Black-box language model explanation by context length probing [7.526153863886609]
本稿では、因果言語モデルのための新しい説明手法である文脈長探索について述べる。
この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。
事前学習された大規模言語モデルに文脈長探索を適用し、初期分析と洞察を提供する。
論文 参考訳(メタデータ) (2022-12-30T16:24:10Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Lexical Generalization Improves with Larger Models and Longer Training [42.024050065980845]
本稿では,自然言語推論,パラフレーズ検出,読解理解における語彙重なりの活用について分析する。
より大型のモデルでは、語彙的な重複を採用することへの感受性がはるかに低いことが分かりました。
論文 参考訳(メタデータ) (2022-10-23T09:20:11Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Psychologically-informed chain-of-thought prompts for metaphor
understanding in large language models [29.993190226231793]
我々はチェーン・オブ・シント・プロンプトを使って確率モデルから大きな言語モデルに構造を導入する。
我々のプロンプトは、メタファーの適切なパラフレーズを選択するために、言語モデルに潜伏変数を推論し、それらの関係を推論する。
論文 参考訳(メタデータ) (2022-09-16T19:23:13Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。