論文の概要: Future Lens: Anticipating Subsequent Tokens from a Single Hidden State
- arxiv url: http://arxiv.org/abs/2311.04897v1
- Date: Wed, 8 Nov 2023 18:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 14:46:32.068986
- Title: Future Lens: Anticipating Subsequent Tokens from a Single Hidden State
- Title(参考訳): future lens: 単一の隠れ状態からその後のトークンを予測する
- Authors: Koyena Pal, Jiuding Sun, Andrew Yuan, Byron C. Wallace, David Bau
- Abstract要約: 我々は、個々の入力トークンに対応する隠れ状態ベクトルが、前方の複数のトークンを正確に予測するのに十分な情報を符号化していると推測する。
我々は,GPT-J-6Bにおける線形近似と因果介入法を測定し,ネットワーク内の個々の隠れ状態が将来隠れ状態を予測するのに十分な信号を含む度合いと,最終的にトークン出力を評価する。
- 参考スコア(独自算出の注目度): 37.214633779288114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We conjecture that hidden state vectors corresponding to individual input
tokens encode information sufficient to accurately predict several tokens
ahead. More concretely, in this paper we ask: Given a hidden (internal)
representation of a single token at position $t$ in an input, can we reliably
anticipate the tokens that will appear at positions $\geq t + 2$? To test this,
we measure linear approximation and causal intervention methods in GPT-J-6B to
evaluate the degree to which individual hidden states in the network contain
signal rich enough to predict future hidden states and, ultimately, token
outputs. We find that, at some layers, we can approximate a model's output with
more than 48% accuracy with respect to its prediction of subsequent tokens
through a single hidden state. Finally we present a "Future Lens" visualization
that uses these methods to create a new view of transformer states.
- Abstract(参考訳): 個々の入力トークンに対応する隠れ状態ベクトルは、前方の複数のトークンを正確に予測するのに十分な情報を符号化する。
より具体的に言うと、この論文では、入力中の位置$t$で単一のトークンの隠れた(内部)表現を与えられた場合、位置$geq t + 2$で現れるトークンを確実に予測できますか?
そこで本研究では,gpt-j-6bにおける線形近似法と因果的介入法を測定し,ネットワーク内の個々の隠れ状態が将来の隠れ状態を予測するのに十分な信号を含むかを評価する。
いくつかの層では、1つの隠れた状態を通して続くトークンの予測に関して、モデルの出力を48%以上の精度で近似することができる。
最後に、これらの手法を用いてトランスフォーマー状態の新しいビューを作成する「フューチャーレンズ」の可視化を示す。
関連論文リスト
- Improving Next Tokens via Second-Last Predictions with Generate and Refine [1.8592384822257952]
トークン列の最後の2番目のトークンを予測するために、デコーダのみのアーキテクチャをトレーニングします。
提案手法により,BERTモデルよりも高い計算訓練効率が得られる。
論文 参考訳(メタデータ) (2024-11-23T22:09:58Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Future Token Prediction -- Causal Language Modelling with Per-Token Semantic State Vector for Multi-Token Prediction [0.0]
本研究では,Future Token Prediction(FTP)と呼ばれる事前学習手法について検討する。
FTPは、擬似シーケンスに線形かつ拡張的に投影される各トークン位置の埋め込みベクトルを生成する。
プログラミングの問題として、FTPネットワークはGPTネットワークよりもはるかに優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-10-23T14:50:15Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Think before you speak: Training Language Models With Pause Tokens [73.61375226378712]
言語モデルは、即座に連続して一連のトークンを生成して応答を生成する。
代わりに、$(K+1)th$トークンを出力する前に、モデルに$K+10$隠れベクターを操作させるとしたらどうでしょう?
私たちは、(学習可能な)$textitpause$トークンを使って、言語モデルでトレーニングと推論を行うことで、このアイデアを運用します。
論文 参考訳(メタデータ) (2023-10-03T17:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。