Fugu-MT 論文翻訳(概要): Future Lens: Anticipating Subsequent Tokens from a Single Hidden State

論文の概要: Future Lens: Anticipating Subsequent Tokens from a Single Hidden State

arxiv url: http://arxiv.org/abs/2311.04897v1
Date: Wed, 8 Nov 2023 18:56:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 14:46:32.068986
Title: Future Lens: Anticipating Subsequent Tokens from a Single Hidden State
Title（参考訳）: future lens: 単一の隠れ状態からその後のトークンを予測する
Authors: Koyena Pal, Jiuding Sun, Andrew Yuan, Byron C. Wallace, David Bau
Abstract要約: 我々は、個々の入力トークンに対応する隠れ状態ベクトルが、前方の複数のトークンを正確に予測するのに十分な情報を符号化していると推測する。我々は,GPT-J-6Bにおける線形近似と因果介入法を測定し,ネットワーク内の個々の隠れ状態が将来隠れ状態を予測するのに十分な信号を含む度合いと,最終的にトークン出力を評価する。
参考スコア（独自算出の注目度）: 37.214633779288114
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We conjecture that hidden state vectors corresponding to individual input tokens encode information sufficient to accurately predict several tokens ahead. More concretely, in this paper we ask: Given a hidden (internal) representation of a single token at position $t$ in an input, can we reliably anticipate the tokens that will appear at positions $\geq t + 2$? To test this, we measure linear approximation and causal intervention methods in GPT-J-6B to evaluate the degree to which individual hidden states in the network contain signal rich enough to predict future hidden states and, ultimately, token outputs. We find that, at some layers, we can approximate a model's output with more than 48% accuracy with respect to its prediction of subsequent tokens through a single hidden state. Finally we present a "Future Lens" visualization that uses these methods to create a new view of transformer states.
Abstract（参考訳）: 個々の入力トークンに対応する隠れ状態ベクトルは、前方の複数のトークンを正確に予測するのに十分な情報を符号化する。より具体的に言うと、この論文では、入力中の位置$t$で単一のトークンの隠れた(内部)表現を与えられた場合、位置$geq t + 2$で現れるトークンを確実に予測できますか? そこで本研究では,gpt-j-6bにおける線形近似法と因果的介入法を測定し,ネットワーク内の個々の隠れ状態が将来の隠れ状態を予測するのに十分な信号を含むかを評価する。いくつかの層では、1つの隠れた状態を通して続くトークンの予測に関して、モデルの出力を48%以上の精度で近似することができる。最後に、これらの手法を用いてトランスフォーマー状態の新しいビューを作成する「フューチャーレンズ」の可視化を示す。

関連論文リスト

Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential [12.719829360337833]
本稿では,バニラ自己回帰言語モデルにおける未来のトークンに関する固有知識を活用する新しいフレームワークを提案する。本手法は,事前学習モデルの教師付き微調整により,大幅な高速化を実現する。
論文参考訳（メタデータ） (2025-07-16T02:31:40Z)
Language Models Can Predict Their Own Behavior [28.80639362933004]
入力トークンの内部表現だけでは、次のトークンだけでなく、出力シーケンス全体に対する最終的な振る舞いを正確に予測できることがよく示されます。この能力を活用して、内部状態のプローブを学習して、早期警告(および終了)システムを作成します。具体的には、探査機がLMの振る舞いを確実に見積もることができれば、システムはトークンを全く生成せず、代わりに推定された振る舞いを返す。
論文参考訳（メタデータ） (2025-02-18T23:13:16Z)
Improving Next Tokens via Second-Last Predictions with Generate and Refine [1.8592384822257952]
トークン列の最後の2番目のトークンを予測するために、デコーダのみのアーキテクチャをトレーニングします。提案手法により,BERTモデルよりも高い計算訓練効率が得られる。
論文参考訳（メタデータ） (2024-11-23T22:09:58Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Future Token Prediction -- Causal Language Modelling with Per-Token Semantic State Vector for Multi-Token Prediction [0.0]
本研究では,Future Token Prediction(FTP)と呼ばれる事前学習手法について検討する。 FTPは、擬似シーケンスに線形かつ拡張的に投影される各トークン位置の埋め込みベクトルを生成する。プログラミングの問題として、FTPネットワークはGPTネットワークよりもはるかに優れた結果をもたらす。
論文参考訳（メタデータ） (2024-10-23T14:50:15Z)
ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。 ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-06-13T05:17:21Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文参考訳（メタデータ） (2023-12-04T18:58:40Z)
Think before you speak: Training Language Models With Pause Tokens [73.61375226378712]
言語モデルは、即座に連続して一連のトークンを生成して応答を生成する。代わりに、$(K+1)th$トークンを出力する前に、モデルに$K+10$隠れベクターを操作させるとしたらどうでしょう? 私たちは、(学習可能な)$textitpause$トークンを使って、言語モデルでトレーニングと推論を行うことで、このアイデアを運用します。
論文参考訳（メタデータ） (2023-10-03T17:32:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。