論文の概要: From independent patches to coordinated attention: Controlling information flow in vision transformers
- arxiv url: http://arxiv.org/abs/2602.04784v1
- Date: Wed, 04 Feb 2026 17:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.656353
- Title: From independent patches to coordinated attention: Controlling information flow in vision transformers
- Title(参考訳): 独立パッチから協調注意:視覚トランスにおける情報フローの制御
- Authors: Kieran A. Murphy,
- Abstract要約: 我々は、視覚変換器において、注意によって伝達される情報を明示的かつ測定可能な量にする。
我々は、明示的な情報コストでモデルを訓練し、独立したパッチ処理から完全に表現力のあるグローバルアテンションまで制御可能なスペクトルを得る。
- 参考スコア(独自算出の注目度): 3.198144010381572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We make the information transmitted by attention an explicit, measurable quantity in vision transformers. By inserting variational information bottlenecks on all attention-mediated writes to the residual stream -- without other architectural changes -- we train models with an explicit information cost and obtain a controllable spectrum from independent patch processing to fully expressive global attention. On ImageNet-100, we characterize how classification behavior and information routing evolve across this spectrum, and provide initial insights into how global visual representations emerge from local patch processing by analyzing the first attention heads that transmit information. By biasing learning toward solutions with constrained internal communication, our approach yields models that are more tractable for mechanistic analysis and more amenable to control.
- Abstract(参考訳): 我々は、視覚変換器において、注意によって伝達される情報を明示的かつ測定可能な量にする。
他のアーキテクチャ変更なしに、残余ストリームにすべての注意を介する書き込みに変動する情報のボトルネックを挿入することで、明示的な情報コストでモデルをトレーニングし、独立したパッチ処理から完全に表現力のあるグローバルな注意へと制御可能なスペクトルを得る。
ImageNet-100では、このスペクトルを横断する分類行動と情報ルーティングがどう進化するかを特徴付け、情報を送信する最初の注意ヘッドを解析することにより、局所的なパッチ処理からグローバルな視覚表現がどのように現れるかに関する最初の洞察を提供する。
制約された内部コミュニケーションを持つソリューションに学習をバイアスさせることで、我々のアプローチは、機械的分析や制御し易いモデルを生み出す。
関連論文リスト
- Mitigating Hallucination in Large Vision-Language Models through Aligning Attention Distribution to Information Flow [9.561772135477883]
LVLM(Large Vision-Language Models)は同じアーキテクチャに従っており、視覚情報は徐々に意味表現に統合される。
我々は,モデルの注意分布が意味表現に十分に重点を置いていないことを観察する。
このミスアライメントはモデルの視覚的理解能力を損なうものであり、幻覚に寄与する。
論文 参考訳(メタデータ) (2025-05-20T12:10:13Z) - Unified Local and Global Attention Interaction Modeling for Vision Transformers [1.9571946424055506]
本稿では,視覚変換器(ViT)の自己認識機構を拡張し,多様なデータセット間でより正確な物体検出を行う手法を提案する。
ViTは、オブジェクト検出、セグメンテーション、分類などの画像理解タスクに強力な能力を示す。
従来の自己意識フレームワークには,局所的特徴混合のための新たなアグレッシブ・コンボリューション・プール戦略と,新たな概念的アテンション・トランスフォーメーションという,2つの改良が加えられている。
論文 参考訳(メタデータ) (2024-12-25T04:53:19Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Hybrid Focal and Full-Range Attention Based Graph Transformers [0.0]
本稿では,Focal と Full-Range Graph Transformer (FFGT) という,純粋に注目に基づくアーキテクチャを提案する。
FFGTは、従来のフルレンジアテンションとエゴネットへのKホップアテンションを組み合わせることで、グローバル情報とローカル情報の両方を集約する。
提案手法は,各種オープンデータセット上での既存のグラフ変換器の性能を向上させる。
論文 参考訳(メタデータ) (2023-11-08T12:53:07Z) - VISIT: Visualizing and Interpreting the Semantic Information Flow of
Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。
LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。
対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文 参考訳(メタデータ) (2023-05-22T19:04:56Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。