論文の概要: Geometric Analysis of Token Selection in Multi-Head Attention
- arxiv url: http://arxiv.org/abs/2602.01893v1
- Date: Mon, 02 Feb 2026 10:04:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.059587
- Title: Geometric Analysis of Token Selection in Multi-Head Attention
- Title(参考訳): 多面的注意におけるトークン選択の幾何学的解析
- Authors: Timur Mudarisov, Mikhal Burtsev, Tatiana Petrova, Radu State,
- Abstract要約: 大規模言語モデル(LLM)におけるマルチヘッドアテンション分析のためのフレームワークを提案する。
我々は、選択されたトークンと非選択されたトークンの分離性を定量化するために、幾何学的メトリクス(精度、リコール、Fスコア)を定義する。
- 参考スコア(独自算出の注目度): 0.9099663022952497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a geometric framework for analysing multi-head attention in large language models (LLMs). Without altering the mechanism, we view standard attention through a top-N selection lens and study its behaviour directly in value-state space. We define geometric metrics - Precision, Recall, and F-score - to quantify separability between selected and non-selected tokens, and derive non-asymptotic bounds with explicit dependence on dimension and margin under empirically motivated assumptions (stable value norms with a compressed sink token, exponential similarity decay, and piecewise attention weight profiles). The theory predicts a small-N operating regime of strongest non-trivial separability and clarifies how sequence length and sink similarity shape the metrics. Empirically, across LLaMA-2-7B, Gemma-7B, and Mistral-7B, measurements closely track the theoretical envelopes: top-N selection sharpens separability, sink similarity correlates with Recall. We also found that in LLaMA-2-7B heads specialize into three regimes - Retriever, Mixer, Reset - with distinct geometric signatures. Overall, attention behaves as a structured geometric classifier with measurable criteria for token selection, offering head level interpretability and informing geometry-aware sparsification and design of attention in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)における多面的注目度分析のための幾何学的枠組みを提案する。
機構を変更することなく、トップN選択レンズを通して標準の注意を視認し、その振る舞いを直接値状態空間で研究する。
我々は、選択されたトークンと非選択されたトークンの分離性を定量化し、経験的に動機づけられた仮定(圧縮されたシンクトークンによる安定値ノルム、指数的類似性減衰、および断片的注意重みプロファイル)の下で、次元とマージンに明示的に依存した非漸近的境界を導出するために、幾何的メトリクス(精度、リコール、Fスコア)を定義する。
この理論は、最強の非自明な分離性を持つ小さなNの操作体制を予測し、シーケンスの長さとシンクの類似性がどのようにメトリクスを形作るかを明らかにする。
実験的に、LLaMA-2-7B、Gemma-7B、Mistral-7Bをまたいで、トップNの選択は分離性を高め、シンク類似性はリコールと相関する。
また、LLaMA-2-7Bヘッドでは、異なる幾何学的シグネチャを持つレトリバー、ミキサー、リセットの3つのレギュレーションに特化している。
全体として、注意はトークン選択のための測定可能な基準を持つ構造化幾何分類器として振る舞う。
関連論文リスト
- MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - Universal Structure of Nonlocal Operators for Deterministic Navigation and Geometric Locking [3.178035874842575]
最適非局所演算子の探索をブラックボックスから決定論的予測検証演算に変換する。
強い異方性に支配される遷移は、スペクトル指標の位相遷移の明確なシグネチャにもかかわらず、最適基底が頑健な幾何学的ロックを示すことを示す。
論文 参考訳(メタデータ) (2025-12-16T11:15:47Z) - The Multiqubit Elegant Joint Measurement [0.0]
エレガントジョイント測定(Elegant Joint Measurement、EJM)は、高度に対称な、部分的に絡み合った2量子ビット測定である。
我々は、EJMを全四面体対称で効率よくローカライズ可能なマルチキュービット基底を同定することにより、マルチパート設定に拡張する。
論文 参考訳(メタデータ) (2025-09-02T00:38:14Z) - Factorization of multimeters: a unified view on nonclassical quantum phenomena [1.4680035572775534]
量子論は、測定の不整合性、文脈性、ステアリング、ベル非局所性など、様々な非古典的特徴を示す。
この研究は、それらを統一する交換ダイアグラムに基づく統一された数学的枠組みを導入する。
論文 参考訳(メタデータ) (2025-04-28T14:57:46Z) - Measuring Orthogonality in Representations of Generative Models [81.13466637365553]
教師なしの表現学習において、モデルは高次元データから低次元の学習表現に不可欠な特徴を蒸留することを目的としている。
独立した生成過程の切り離しは、長い間、高品質な表現を生み出してきた。
我々は、IWO(Importance-Weighted Orthogonality)とIWR(Importance-Weighted Rank)の2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T08:21:54Z) - CWF: Consolidating Weak Features in High-quality Mesh Simplification [50.634070540791555]
これらの要件をすべて同時に検討するスムーズな機能を提案する。
この官能基は、通常の異方性項と、セトロイド型ボロノイテッセルレーション(CVT)エネルギー項を含む。
論文 参考訳(メタデータ) (2024-04-24T05:37:17Z) - Markovian Sliced Wasserstein Distances: Beyond Independent Projections [51.80527230603978]
我々は、射影方向にマルコフ構造を課す新しいSW距離の族、Markovian sliced Wasserstein (MSW) 距離を導入する。
フロー,色移動,深部生成モデルなどの様々な応用において,従来のSW変種との距離を比較し,MSWの良好な性能を示す。
論文 参考訳(メタデータ) (2023-01-10T01:58:15Z) - Partial Shape Similarity via Alignment of Multi-Metric Hamiltonian
Spectra [10.74981839055037]
そこで本研究では, 形状の類似した領域に適合する新しい公理的手法を提案する。
類似した領域のマッチングは、ラプラス・ベルトラミ作用素(LBO)と密接に関連する作用素のスペクトルのアライメントとして定式化される
これらのデュアルスペクトルのマッチングは、標準ベンチマークでテストした場合、競合する公理的フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-07T00:03:50Z) - Relative Pose from SIFT Features [50.81749304115036]
基本行列の未知元と向きとスケールに関する新しい線形制約を導出する。
提案した制約は、合成環境における多くの問題と、80000以上の画像ペア上で公開されている実世界のデータセットでテストされる。
論文 参考訳(メタデータ) (2022-03-15T14:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。