論文の概要: From independent patches to coordinated attention: Controlling information flow in vision transformers
- arxiv url: http://arxiv.org/abs/2602.04784v1
- Date: Wed, 04 Feb 2026 17:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.656353
- Title: From independent patches to coordinated attention: Controlling information flow in vision transformers
- Title(参考訳): 独立パッチから協調注意:視覚トランスにおける情報フローの制御
- Authors: Kieran A. Murphy,
- Abstract要約: 我々は、視覚変換器において、注意によって伝達される情報を明示的かつ測定可能な量にする。
我々は、明示的な情報コストでモデルを訓練し、独立したパッチ処理から完全に表現力のあるグローバルアテンションまで制御可能なスペクトルを得る。
- 参考スコア(独自算出の注目度): 3.198144010381572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We make the information transmitted by attention an explicit, measurable quantity in vision transformers. By inserting variational information bottlenecks on all attention-mediated writes to the residual stream -- without other architectural changes -- we train models with an explicit information cost and obtain a controllable spectrum from independent patch processing to fully expressive global attention. On ImageNet-100, we characterize how classification behavior and information routing evolve across this spectrum, and provide initial insights into how global visual representations emerge from local patch processing by analyzing the first attention heads that transmit information. By biasing learning toward solutions with constrained internal communication, our approach yields models that are more tractable for mechanistic analysis and more amenable to control.
- Abstract(参考訳): 我々は、視覚変換器において、注意によって伝達される情報を明示的かつ測定可能な量にする。
他のアーキテクチャ変更なしに、残余ストリームにすべての注意を介する書き込みに変動する情報のボトルネックを挿入することで、明示的な情報コストでモデルをトレーニングし、独立したパッチ処理から完全に表現力のあるグローバルな注意へと制御可能なスペクトルを得る。
ImageNet-100では、このスペクトルを横断する分類行動と情報ルーティングがどう進化するかを特徴付け、情報を送信する最初の注意ヘッドを解析することにより、局所的なパッチ処理からグローバルな視覚表現がどのように現れるかに関する最初の洞察を提供する。
制約された内部コミュニケーションを持つソリューションに学習をバイアスさせることで、我々のアプローチは、機械的分析や制御し易いモデルを生み出す。
関連論文リスト
- Mitigating Hallucination in Large Vision-Language Models through Aligning Attention Distribution to Information Flow [9.561772135477883]
LVLM(Large Vision-Language Models)は同じアーキテクチャに従っており、視覚情報は徐々に意味表現に統合される。
我々は,モデルの注意分布が意味表現に十分に重点を置いていないことを観察する。
このミスアライメントはモデルの視覚的理解能力を損なうものであり、幻覚に寄与する。
論文 参考訳(メタデータ) (2025-05-20T12:10:13Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Hybrid Focal and Full-Range Attention Based Graph Transformers [0.0]
本稿では,Focal と Full-Range Graph Transformer (FFGT) という,純粋に注目に基づくアーキテクチャを提案する。
FFGTは、従来のフルレンジアテンションとエゴネットへのKホップアテンションを組み合わせることで、グローバル情報とローカル情報の両方を集約する。
提案手法は,各種オープンデータセット上での既存のグラフ変換器の性能を向上させる。
論文 参考訳(メタデータ) (2023-11-08T12:53:07Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。