論文の概要: Regularizing Attention Scores with Bootstrapping
- arxiv url: http://arxiv.org/abs/2604.01339v1
- Date: Wed, 01 Apr 2026 19:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.862169
- Title: Regularizing Attention Scores with Bootstrapping
- Title(参考訳): Bootstrappingによる注意スコアの正規化
- Authors: Neo Christopher Chung, Maxim Laletin,
- Abstract要約: 視覚変換器(ViT)は、入力特徴量を測定するために注意機構に依存しているため、注意スコアはその意思決定プロセスの説明として自然に考慮されてきた。
注意点の不確かさを定量化し、正規化注意点を得ることができるか?
本研究は,ViTの注意点を説明として用いる際に,ブートストラップを実用的な正規化ツールとして強調する。
- 参考スコア(独自算出の注目度): 2.406359246841227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViT) rely on attention mechanism to weigh input features, and therefore attention scores have naturally been considered as explanations for its decision-making process. However, attention scores are almost always non-zero, resulting in noisy and diffused attention maps and limiting interpretability. Can we quantify uncertainty measures of attention scores and obtain regularized attention scores? To this end, we consider attention scores of ViT in a statistical framework where independent noise would lead to insignificant yet non-zero scores. Leveraging statistical learning techniques, we introduce the bootstrapping for attention scores which generates a baseline distribution of attention scores by resampling input features. Such a bootstrap distribution is then used to estimate significances and posterior probabilities of attention scores. In natural and medical images, the proposed \emph{Attention Regularization} approach demonstrates a straightforward removal of spurious attention arising from noise, drastically improving shrinkage and sparsity. Quantitative evaluations are conducted using both simulation and real-world datasets. Our study highlights bootstrapping as a practical regularization tool when using attention scores as explanations for ViT. Code available: https://github.com/ncchung/AttentionRegularization
- Abstract(参考訳): 視覚変換器(ViT)は、入力特徴量を測定するために注意機構に依存しているため、注意スコアはその意思決定プロセスの説明として自然に考慮されてきた。
しかし、アテンションスコアはほとんど常にゼロではないため、ノイズや拡散したアテンションマップや解釈可能性の制限が生じる。
注意点の不確かさを定量化し、正規化注意点を得ることができるか?
この目的のために、独立ノイズが重要で非ゼロスコアにつながる統計的枠組みとして、ViTの注意点を考慮する。
統計的学習技術を活用することで,注目点に対するブートストラップを導入し,入力特徴を再サンプリングすることで,注目点のベースライン分布を生成する。
このようなブートストラップ分布は、注意点の重要度と後部確率を推定するために用いられる。
自然画像と医用画像において,提案したemph{Attention Regularization} アプローチは,ノイズによる刺激的注意の直接的な除去,収縮とスパーシリティの大幅な改善を示す。
シミュレーションと実世界のデータセットを用いて定量的評価を行う。
本研究は,ViTの注意点を説明として用いる際に,ブートストラップを実用的な正規化ツールとして強調する。
コード提供: https://github.com/ncchung/AttentionRegularization
関連論文リスト
- Attention (as Discrete-Time Markov) Chains [76.61244121046035]
注意行列の新しい解釈を離散時間マルコフ連鎖として導入する。
キーとなる観察は、意味的に類似した領域に関連付けられたトークンが準安定状態、すなわち注意が集中する傾向にある領域を形成し、ノイズの多い注意スコアが散逸することである。
最後に、グローバルトークンの重要性を測定するマルコフ連鎖の定常状態ベクトルであるTokenRankを定義する。
論文 参考訳(メタデータ) (2025-07-23T16:20:47Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - When Attention Sink Emerges in Language Models: An Empirical View [39.36282162213973]
言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。
この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。
我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文 参考訳(メタデータ) (2024-10-14T17:50:28Z) - Faithful and Accurate Self-Attention Attribution for Message Passing Neural Networks via the Computation Tree Viewpoint [11.459893079664578]
計算木に基づく自己注意型MPNNのエッジ属性計算法であるGATTを提案する。
その単純さにもかかわらず、モデル説明の3つの側面において、GATTの有効性を実証的に示す。
論文 参考訳(メタデータ) (2024-06-07T03:40:15Z) - Is Attention Interpretation? A Quantitative Assessment On Sets [0.0]
集合機械学習の文脈における注意の解釈可能性について検討する。
注意分布は、個々のインスタンスの相対的な重要性を反映していることが多い。
我々は、注意に基づく説明を誤解させるリスクを最小限に抑えるためにアンサンブルを使うことを提案する。
論文 参考訳(メタデータ) (2022-07-26T16:25:38Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。