論文の概要: Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Decoder-Only Transformers
- arxiv url: http://arxiv.org/abs/2510.23912v1
- Date: Mon, 27 Oct 2025 22:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.606369
- Title: Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Decoder-Only Transformers
- Title(参考訳): キーとバリューウェイトはおそらくすべて必要である:デコーダオンリートランスフォーマーにおけるクエリ、キー、バリューウェイトトリプルの必要性について
- Authors: Marko Karbevski, Antonij Mijoski,
- Abstract要約: クエリの重みが冗長であることの仮定を単純化し、非埋め込み/lmヘッドパラメータの数を8%以上削減する。
完全複雑GPT-3小アーキテクチャの理論を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Query, Key, Value weight triplet is a building block of current attention mechanisms in state-of-the-art LLMs. We theoretically investigate whether this triplet can be reduced, proving under simplifying assumptions that the Query weights are redundant, thereby reducing the number of non-embedding/lm-head parameters by over 8%. We validate the theory on full-complexity GPT-3 small architectures (with layer normalization, skip connections, and weight decay) trained from scratch, demonstrating that the reduced model achieves comparable validation loss to standard baselines. These findings motivate the investigation of the Query weight redundancy at scale.
- Abstract(参考訳): Query, Key, Value weight tripletは、最先端のLCMにおける現在の注目メカニズムの構成要素である。
理論的には、この三重項を減らし、クエリ重みが冗長であるという仮定を単純化して証明し、非埋め込み/lmヘッドパラメータの数を8%以上削減できるかどうかを論じる。
我々は, 階層正規化, スキップ接続, ウェイト崩壊を含む) GPT-3小アーキテクチャの理論をスクラッチから学習し, モデルが標準ベースラインに匹敵する検証損失を達成できることを実証した。
これらの知見は,大規模におけるクエリウェイト冗長性の調査を動機付けている。
関連論文リスト
- A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA [65.38186593873313]
MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。
我々はMHQAのための概念実証マルチコールフレームワークをInfoQAで紹介する。
我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
論文 参考訳(メタデータ) (2025-09-25T14:11:57Z) - Quantization Meets Reasoning: Exploring and Mitigating Degradation of Low-Bit LLMs in Mathematical Reasoning [39.56908863102256]
低ビット後の量子化は、より厳しい設定で69.81%の数学的推論を損なう。
デプロイクリティカルな2つの問題に,プロセスレベルの精度で対処する。
われわれの設定では、332のキュレートされたサンプルと1つのGPUで3~5分計算すると、完全な精度のベースラインに向かって4ビットの重み計算が引き起こされる。
論文 参考訳(メタデータ) (2025-05-16T12:11:40Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - Does Self-Attention Need Separate Weights in Transformers? [0.8528401618469594]
この研究は、(キー、値、クエリ)表現のための1つの重み行列のみを学習する共有重みベースのBERTモデルを導入する。
実験結果から,共有自己注意法は注目ブロックのパラメータサイズを66.53%削減できることが示唆された。
GLUEデータセットでは、共有重みベースのBERTモデルは標準、対称、対の注意に基づくBERTモデルに対して0.38%、5.81%、1.06%の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-30T04:46:20Z) - Injectivity capacity of ReLU gates [0.0]
本稿ではReLUネットワーク層のインジェクティビティ特性について考察する。
我々は,$ell_0$の球面パーセプトロンと暗黙的にReLU層インジェクティビティを扱う強力なプログラムを開発する。
得られた結果は[40]からのレプリカ予測とかなりよく一致している。
論文 参考訳(メタデータ) (2024-10-28T00:57:10Z) - A Mean Field Ansatz for Zero-Shot Weight Transfer [9.910243630243079]
平均場アンサッツを導入し,重量移動の理論的説明を行う。
GPT-3 や Llama-3.1 などの簡単な例や LLM を探索することで, RC アンザッツを実証的に検証する。
ゼロショット重み移動の理論的支援を提供する適切な仮定の下では,平均場視点が適切であることを示す。
論文 参考訳(メタデータ) (2024-08-16T11:53:52Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Junk DNA Hypothesis: Pruning Small Pre-Trained Weights Irreversibly and Monotonically Impairs "Difficult" Downstream Tasks in LLMs [66.70431182736787]
大型言語モデル(LLM)の重みには、かなりの冗長性が含まれていると信じられている。
本稿では,下流の難題に対処する上で必要となる重要な知識を包含する,事前訓練されたモデル重みの小さなマグニチュード重みについて述べる。
論文 参考訳(メタデータ) (2023-09-29T22:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。