論文の概要: Large language models implicitly learn to straighten neural sentence
trajectories to construct a predictive representation of natural language
- arxiv url: http://arxiv.org/abs/2311.04930v1
- Date: Sun, 5 Nov 2023 22:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 17:24:40.382754
- Title: Large language models implicitly learn to straighten neural sentence
trajectories to construct a predictive representation of natural language
- Title(参考訳): 大きな言語モデルは、自然言語の予測表現を構築するために、暗黙的に神経文軌跡の直線化を学ぶ
- Authors: Eghbal A. Hosseini, Evelina Fedorenko
- Abstract要約: 自己回帰変換器の予測表現に関する仮説を検証した。
重要な洞察は、直線的な軌道は線形外挿による予測を促進するべきであるということである。
1次元曲率計を用いて直線性を定量化する。
- 参考スコア(独自算出の注目度): 2.1756081703276
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Predicting upcoming events is critical to our ability to interact with our
environment. Transformer models, trained on next-word prediction, appear to
construct representations of linguistic input that can support diverse
downstream tasks. But how does a predictive objective shape such
representations? Inspired by recent work in vision (Henaff et al., 2019), we
test a hypothesis about predictive representations of autoregressive
transformers. In particular, we test whether the neural trajectory of a
sentence becomes progressively straighter as it passes through the network
layers. The key insight is that straighter trajectories should facilitate
prediction via linear extrapolation. We quantify straightness using a
1-dimensional curvature metric, and present four findings in support of the
trajectory straightening hypothesis: i) In trained models, the curvature
decreases from the early to the deeper layers of the network. ii) Models that
perform better on the next-word prediction objective exhibit greater decreases
in curvature, suggesting that this improved ability to straighten sentence
trajectories may be the driver of better language modeling performance. iii)
Given the same linguistic context, the sequences that are generated by the
model have lower curvature than the actual continuations observed in a language
corpus, suggesting that the model favors straighter trajectories for making
predictions. iv) A consistent relationship holds between the average curvature
and the average surprisal of sentences in the deep model layers, such that
sentences with straighter trajectories also have lower surprisal. Importantly,
untrained models do not exhibit these behaviors. In tandem, these results
support the trajectory straightening hypothesis and provide a possible
mechanism for how the geometry of the internal representations of
autoregressive models supports next word prediction.
- Abstract(参考訳): 今後のイベントを予測することは、環境と対話する能力にとって重要です。
次単語予測に基づいて訓練されたトランスフォーマーモデルは、様々な下流タスクをサポートする言語入力の表現を構成するように見える。
しかし、そのような表現はどのように予測対象を形作るのか?
近年の視覚研究 (Henaff et al., 2019) に触発されて, 自己回帰変換器の予測表現に関する仮説を検証した。
特に,ネットワーク層を通過すると,文の神経軌道が徐々に直線になるかどうかを検証した。
重要な洞察は、直線的な軌道は線形外挿による予測を促進するべきであるということである。
1次元曲率計を用いて直線性を定量化し、軌道直線化仮説を支持する4つの結果を示す。
i) トレーニングされたモデルでは,ネットワークの初期層からより深い層まで曲率が減少する。
二 次単語予測目標により良い結果をもたらすモデルが曲率の低下を示し、この改良された文軌道の整列能力が言語モデリング性能の向上の原動力となる可能性があることを示唆する。
三 同一の言語文脈により、モデルにより生成されたシーケンスは、言語コーパスで観測された実際の継続よりも曲率が低く、予測を行うためのより直線的な軌道を好むことを示唆する。
四 平均曲率と深層モデルにおける文の平均下限との間に一貫した関係があり、また、より直線的な軌跡を持つ文も下限となる。
重要なことに、訓練されていないモデルはこれらの振る舞いを示さない。
タンデムでは、これらの結果は軌道の直線化仮説をサポートし、自己回帰モデルの内部表現の幾何学が次の単語予測をどのようにサポートするかのメカニズムを提供する。
関連論文リスト
- The Power of Next-Frame Prediction for Learning Physical Laws [5.624870417352306]
次フレーム予測はビデオデータのダイナミックスをモデル化し理解するための有用で強力な手法である。
本稿では,重力や質量などの物理定数の異なる物理法則から導出した6つの診断シミュレーションビデオデータセットについて紹介する。
生成学習フェーズだけでは、ランダムモデルよりもはるかに優れた物理定数を予測できるモデル状態が誘導される。
論文 参考訳(メタデータ) (2024-05-21T17:55:54Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Humans and language models diverge when predicting repeating text [52.03471802608112]
我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。
人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。
このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
論文 参考訳(メタデータ) (2023-10-10T08:24:28Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Explaining How Transformers Use Context to Build Predictions [0.1749935196721634]
言語生成モデルは、以前の文脈に基づいて単語を生成する。
レイヤ全体にわたって、事前の言葉がモデルの判断にどのような影響を及ぼすかは、いまだに不明である。
本稿では,トランスフォーマーの説明可能性の最近の進歩を活用し,言語生成のためのモデル解析手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T18:29:10Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Trajectory Prediction with Linguistic Representations [27.71805777845141]
本稿では,言語中間表現を用いて軌跡を予測できる新しい軌跡予測モデルを提案する。
モデルは単語ごとの直接監督なしに各単語の意味を学習する。
これは、長い時間間隔で操作と相互作用をキャプチャする軌跡の言語記述を生成する。
論文 参考訳(メタデータ) (2021-10-19T05:22:38Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Improved Speech Representations with Multi-Target Autoregressive
Predictive Coding [23.424410568555547]
我々は、将来のフレームを正確に予測できる隠された状態が、多くの下流タスクに有用な表現である、という仮説を拡張した。
本稿では、将来のフレーム予測タスクの一般化を改善するための正規化として機能する補助的目的を提案する。
論文 参考訳(メタデータ) (2020-04-11T01:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。