論文の概要: Do language models plan ahead for future tokens?
- arxiv url: http://arxiv.org/abs/2404.00859v2
- Date: Thu, 1 Aug 2024 21:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 18:13:29.873569
- Title: Do language models plan ahead for future tokens?
- Title(参考訳): 言語モデルは将来のトークンを計画していますか?
- Authors: Wilson Wu, John X. Morris, Lionel Levine,
- Abstract要約: トランスフォーマーは、フォワードパスの隠された状態の情報をステップ$t$で準備し、将来のフォワードパス$t+tau$で使用される。
トレーニング中に発生する非対角勾配項は、現在の推論タスクとは無関係に$t$のモデル計算機能をもたらすが、将来に役立つ。
- 参考スコア(独自算出の注目度): 0.15800607910450126
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Do transformers "think ahead" during inference at a given position? It is known transformers prepare information in the hidden states of the forward pass at time step $t$ that is then used in future forward passes $t+\tau$. We posit two explanations for this phenomenon: pre-caching, in which off-diagonal gradient terms present during training result in the model computing features at $t$ irrelevant to the present inference task but useful for the future, and breadcrumbs, in which features most relevant to time step $t$ are already the same as those that would most benefit inference at time $t+\tau$. We test these hypotheses by training language models without propagating gradients to past timesteps, a scheme we formalize as myopic training. In a constructed synthetic data setting, we find clear evidence for pre-caching. In the autoregressive language modeling setting, our experiments are more suggestive of the breadcrumbs hypothesis, though pre-caching increases with model scale.
- Abstract(参考訳): トランスフォーマーは、特定の位置での推論中に“前方”を考えるか?
トランスフォーマーは、フォワードパスの隠された状態の情報をステップ$t$で作成し、将来のフォワードパス$t+\tau$で使用される。
トレーニング中に発生する非対角勾配項は、現在の推論タスクとは無関係に$t$のモデル計算機能をもたらすが、将来に役立つ。
我々はこれらの仮説を過去の時間ステップに勾配を伝播させることなく言語モデルを訓練することで検証する。
構築された合成データ設定では、プリキャッシュの明確な証拠が見つかる。
自己回帰言語モデリング設定では、モデルスケールで事前キャッシュが増加するが、我々の実験はパンクラムス仮説をより示唆している。
関連論文リスト
- Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Contrastive Difference Predictive Coding [79.74052624853303]
本研究では、時系列データの断片を縫合して、将来の事象の予測を学習するために必要なデータの量を減少させるコントラッシブ予測符号化の時間差版を導入する。
目的条件付きRLの非政治アルゴリズムを導出するために,この表現学習手法を適用した。
論文 参考訳(メタデータ) (2023-10-31T03:16:32Z) - Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Predicting the future with a scale-invariant temporal memory for the
past [0.0]
近年、脳は過去まで続く最近の出来事の時間記憶を維持していることが明らかになっている。
本稿では,過去におけるスケール不変時間表現を用いて,スケール不変未来を予測するニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-01-26T17:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。