論文の概要: Do language models plan ahead for future tokens?
- arxiv url: http://arxiv.org/abs/2404.00859v2
- Date: Thu, 1 Aug 2024 21:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 18:13:29.873569
- Title: Do language models plan ahead for future tokens?
- Title(参考訳): 言語モデルは将来のトークンを計画していますか?
- Authors: Wilson Wu, John X. Morris, Lionel Levine,
- Abstract要約: トランスフォーマーは、フォワードパスの隠された状態の情報をステップ$t$で準備し、将来のフォワードパス$t+tau$で使用される。
トレーニング中に発生する非対角勾配項は、現在の推論タスクとは無関係に$t$のモデル計算機能をもたらすが、将来に役立つ。
- 参考スコア(独自算出の注目度): 0.15800607910450126
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Do transformers "think ahead" during inference at a given position? It is known transformers prepare information in the hidden states of the forward pass at time step $t$ that is then used in future forward passes $t+\tau$. We posit two explanations for this phenomenon: pre-caching, in which off-diagonal gradient terms present during training result in the model computing features at $t$ irrelevant to the present inference task but useful for the future, and breadcrumbs, in which features most relevant to time step $t$ are already the same as those that would most benefit inference at time $t+\tau$. We test these hypotheses by training language models without propagating gradients to past timesteps, a scheme we formalize as myopic training. In a constructed synthetic data setting, we find clear evidence for pre-caching. In the autoregressive language modeling setting, our experiments are more suggestive of the breadcrumbs hypothesis, though pre-caching increases with model scale.
- Abstract(参考訳): トランスフォーマーは、特定の位置での推論中に“前方”を考えるか?
トランスフォーマーは、フォワードパスの隠された状態の情報をステップ$t$で作成し、将来のフォワードパス$t+\tau$で使用される。
トレーニング中に発生する非対角勾配項は、現在の推論タスクとは無関係に$t$のモデル計算機能をもたらすが、将来に役立つ。
我々はこれらの仮説を過去の時間ステップに勾配を伝播させることなく言語モデルを訓練することで検証する。
構築された合成データ設定では、プリキャッシュの明確な証拠が見つかる。
自己回帰言語モデリング設定では、モデルスケールで事前キャッシュが増加するが、我々の実験はパンクラムス仮説をより示唆している。
関連論文リスト
- Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Contrastive Difference Predictive Coding [79.74052624853303]
本研究では、時系列データの断片を縫合して、将来の事象の予測を学習するために必要なデータの量を減少させるコントラッシブ予測符号化の時間差版を導入する。
目的条件付きRLの非政治アルゴリズムを導出するために,この表現学習手法を適用した。
論文 参考訳(メタデータ) (2023-10-31T03:16:32Z) - Understanding Transformer Memorization Recall Through Idioms [42.28269674547148]
言語モデルにおける記憶されたシーケンスのリコールを探索し,特徴付けるための,最初の方法論的フレームワークを提供する。
本研究では,モデル内の隠れ表現を,出力確率分布の段階的改善として解釈することにより,内部予測構築過程を解析する。
本研究は,メモリリコールの理解に向けての第一歩を踏み出し,トランスフォーマー記憶の今後の研究のための方法論的基盤を提供する。
論文 参考訳(メタデータ) (2022-10-07T14:45:31Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Predicting the future with a scale-invariant temporal memory for the
past [0.0]
近年、脳は過去まで続く最近の出来事の時間記憶を維持していることが明らかになっている。
本稿では,過去におけるスケール不変時間表現を用いて,スケール不変未来を予測するニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-01-26T17:22:17Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。