論文の概要: Do Value Vectors in Deep Layers Need Context from the Residual Stream?
- arxiv url: http://arxiv.org/abs/2606.02780v1
- Date: Mon, 01 Jun 2026 18:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.702608
- Title: Do Value Vectors in Deep Layers Need Context from the Residual Stream?
- Title(参考訳): ディープレイヤのバリューベクトルは残留ストリームからコンテキストを必要とするか?
- Authors: Muyu He, Yuchen Liu, Qingya Huang, Li Zhang,
- Abstract要約: Bank of Values(BOV)は、トークン固有の値ベクトルのルックアップテーブルを、最後の3分の1のレイヤ毎に学習することで、注目されている価値ベクトルを計算するための新しい方法である。
BoVは標準的な注意力よりもバリデーション損失を改善し、780Mでは21ベンチマークの平均スコアが以前のベストメソッドと一致している。
- 参考スコア(独自算出の注目度): 9.918443222523543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of the transformer architecture as the backbone of modern LLMs is in large part due to its use of attention layers. An attention layer follows the standard neural network paradigm: it takes the residual stream as input and thereby produces context-dependent query, key, and value vectors. However, we find that model performance meaningfully improves when deeper layers learn only a context-free value vector to preserve the original token information, without drawing on any context from the residual stream. When the model has access to this context-free value vector, adding back the context-dependent component provides little additional benefit for aggregate benchmark performance. Such context-free value vectors can be stored as sparse model parameters, eliminating the need to recompute or persistently cache these values. Through systematic ablations on the key design choices for such context-free value vectors, we propose Bank of Values (BoV), a new way of computing value vectors in attention by learning a lookup table of token-specific value vectors for each of the last third of layers. Across 135M and 780M models, BoV improves validation loss over standard attention and, at 780M, the average score across 21 benchmarks, matching the previous best method that adds token information to the value vector with less compute and memory.
- Abstract(参考訳): 現代のLLMのバックボーンとしてのトランスフォーマーアーキテクチャの成功の大部分は、注意層の利用によるものである。
注意層は、標準のニューラルネットワークパラダイムに従い、残ストリームを入力として取り、それによってコンテキスト依存のクエリ、キー、値ベクトルを生成する。
しかし, モデルの性能は, 残余ストリームからコンテキストを描画することなく, 元のトークン情報を保持するために, 文脈自由値ベクトルのみを学習した場合に有意義に向上することがわかった。
モデルがこの文脈に依存しない値ベクトルにアクセスできる場合、コンテキストに依存したコンポーネントを追加することで、ベンチマークの集計性能が向上する余地はほとんどない。
このような文脈自由な値ベクトルはスパースモデルパラメータとして格納することができ、これらの値を再計算したり永続的にキャッシュする必要がなくなる。
このような文脈自由な値ベクトルの鍵となる設計選択の体系化を通じて、各3分の1の層についてトークン固有の値ベクトルのルックアップテーブルを学習することにより、注目される値ベクトルの新たな計算方法であるバンク・オブ・バリュー(BoV)を提案する。
135Mモデルと780Mモデル全体で、BoVは標準的な注意よりもバリデーション損失を改善し、780Mでは21ベンチマークの平均スコアが計算とメモリの少ない値ベクトルにトークン情報を追加する以前のベストメソッドと一致する。
関連論文リスト
- Transformers with Selective Access to Early Representations [6.554898376530473]
Selective Access Transformer(SATFormer)を導入し、コンテキスト依存ゲートによるアクセスを制御しながら、第1層の値経路を保存する。
SATFormerは静的値とTransformerベースラインに対するバリデーション損失とゼロショット精度を一貫して改善する。
ゲート分析は、スパース、ディープ依存、ヘッド固有、カテゴリー依存のアクセスパターンを示唆する。
論文 参考訳(メタデータ) (2026-05-05T16:38:29Z) - InfoFlow KV: Information-Flow-Aware KV Recomputation for Long Context [23.355776408834473]
クエリからの単純な注意ノルム信号は、意味的に関連があり、情報を伝達するために構造的に位置付けられたトークンを確実に識別する。
LLMおよびVLMベンチマークの実験は、同等の効率予算の下で、以前の手法よりも一貫した利得を示す。
論文 参考訳(メタデータ) (2026-03-05T16:33:20Z) - LLM-based Embeddings: Attention Values Encode Sentence Semantics Better Than Hidden States [13.418437639290532]
文表現は多くの自然言語処理(NLP)アプリケーションの基礎となっている。
本稿では,注目値ベクトルが隠れ状態よりも文の意味を効果的に捉えていることを示す,新しい視点を紹介する。
論文 参考訳(メタデータ) (2026-02-02T03:09:37Z) - Internal Value Alignment in Large Language Models through Controlled Value Vector Activation [70.41805604556058]
本研究では,Large Language Models (LLM) を人間の値と整合させるためのConVA法を提案する。
モデル性能を犠牲にすることなく連続的に値を制御するために,ゲート値ベクトルアクティベーション法を導入する。
実験により, LLM性能と流速を損なうことなく, 基本値10個に対して最大制御成功率を達成できることが確認された。
論文 参考訳(メタデータ) (2025-07-15T13:48:35Z) - An Energy-based Model for Word-level AutoCompletion in Computer-aided Translation [97.3797716862478]
Word-level AutoCompletion (WLAC) は、コンピュータ支援翻訳における報奨だが挑戦的なタスクである。
既存の作業は、入力コンテキストの隠れベクターを対応するラベルにマッピングするニューラルネットワークに基づく分類モデルを通じて、このタスクに対処する。
そこで本研究では,WLACのエネルギーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:07:19Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - Internal language model estimation through explicit context vector
learning for attention-based encoder-decoder ASR [19.233720469733797]
本稿では,Lens-Attend-Spell(LAS)モデルに基づく2つの新しい手法を提案する。
実験の結果,提案手法により推定されたILMは最も低いパープレキシティを実現することがわかった。
論文 参考訳(メタデータ) (2022-01-26T07:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。