論文の概要: Future Lens: Anticipating Subsequent Tokens from a Single Hidden State
- arxiv url: http://arxiv.org/abs/2311.04897v1
- Date: Wed, 8 Nov 2023 18:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 14:46:32.068986
- Title: Future Lens: Anticipating Subsequent Tokens from a Single Hidden State
- Title(参考訳): future lens: 単一の隠れ状態からその後のトークンを予測する
- Authors: Koyena Pal, Jiuding Sun, Andrew Yuan, Byron C. Wallace, David Bau
- Abstract要約: 我々は、個々の入力トークンに対応する隠れ状態ベクトルが、前方の複数のトークンを正確に予測するのに十分な情報を符号化していると推測する。
我々は,GPT-J-6Bにおける線形近似と因果介入法を測定し,ネットワーク内の個々の隠れ状態が将来隠れ状態を予測するのに十分な信号を含む度合いと,最終的にトークン出力を評価する。
- 参考スコア(独自算出の注目度): 37.214633779288114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We conjecture that hidden state vectors corresponding to individual input
tokens encode information sufficient to accurately predict several tokens
ahead. More concretely, in this paper we ask: Given a hidden (internal)
representation of a single token at position $t$ in an input, can we reliably
anticipate the tokens that will appear at positions $\geq t + 2$? To test this,
we measure linear approximation and causal intervention methods in GPT-J-6B to
evaluate the degree to which individual hidden states in the network contain
signal rich enough to predict future hidden states and, ultimately, token
outputs. We find that, at some layers, we can approximate a model's output with
more than 48% accuracy with respect to its prediction of subsequent tokens
through a single hidden state. Finally we present a "Future Lens" visualization
that uses these methods to create a new view of transformer states.
- Abstract(参考訳): 個々の入力トークンに対応する隠れ状態ベクトルは、前方の複数のトークンを正確に予測するのに十分な情報を符号化する。
より具体的に言うと、この論文では、入力中の位置$t$で単一のトークンの隠れた(内部)表現を与えられた場合、位置$geq t + 2$で現れるトークンを確実に予測できますか?
そこで本研究では,gpt-j-6bにおける線形近似法と因果的介入法を測定し,ネットワーク内の個々の隠れ状態が将来の隠れ状態を予測するのに十分な信号を含むかを評価する。
いくつかの層では、1つの隠れた状態を通して続くトークンの予測に関して、モデルの出力を48%以上の精度で近似することができる。
最後に、これらの手法を用いてトランスフォーマー状態の新しいビューを作成する「フューチャーレンズ」の可視化を示す。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Toward a Theory of Tokenization in LLMs [26.516041872337887]
本稿では, 簡単なデータ生成プロセスにおいて, 変圧器の挙動を研究することによって, 理論的観点からトークン化について検討する。
変換器によって学習された最も単純なユニグラムモデルでさえ、$ktextth$-order Markovソースから引き出されたシーケンスの確率を最適にモデル化できることを示す。
論文 参考訳(メタデータ) (2024-04-12T09:01:14Z) - Mechanics of Next Token Prediction with Self-Attention [41.82477691012942]
トランスフォーマーベースの言語モデルは、入力シーケンスが与えられた次のトークンを予測するために、大きなデータセットでトレーニングされる。
勾配降下による自己注意の訓練は,次のトークンを2つの異なるステップで生成するオートマトンを学習することを示す。
これらの発見が、どのように自己認識がシーケンシャルなデータをどのように処理し、より複雑なアーキテクチャをデミステライズする道を開くか、光を当てることを願っています。
論文 参考訳(メタデータ) (2024-03-12T21:15:38Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - An Attribution Method for Siamese Encoders [2.1163800956183776]
本稿では,複数の入力を持つモデルに対する積分勾配の原理を一般化することにより,シームズエンコーダの局所帰属法を導出する。
パイロットスタディでは、STでは少数のトークンペアが多くの予測を説明でき、名詞や動詞に焦点を絞っていることが示されている。
論文 参考訳(メタデータ) (2023-10-09T13:24:44Z) - Think before you speak: Training Language Models With Pause Tokens [73.61375226378712]
言語モデルは、即座に連続して一連のトークンを生成して応答を生成する。
代わりに、$(K+1)th$トークンを出力する前に、モデルに$K+10$隠れベクターを操作させるとしたらどうでしょう?
私たちは、(学習可能な)$textitpause$トークンを使って、言語モデルでトレーニングと推論を行うことで、このアイデアを運用します。
論文 参考訳(メタデータ) (2023-10-03T17:32:41Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。