論文の概要: TAB: Transformer Attention Bottlenecks enable User Intervention and Debugging in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.18675v1
- Date: Tue, 24 Dec 2024 20:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:45.193749
- Title: TAB: Transformer Attention Bottlenecks enable User Intervention and Debugging in Vision-Language Models
- Title(参考訳): TAB: Transformer Attention Bottlenecksは視覚言語モデルにおけるユーザ介入とデバッグを可能にする
- Authors: Pooyan Rahmanzadehgrevi, Hung Huy Nguyen, Rosanne Liu, Long Mai, Anh Totti Nguyen,
- Abstract要約: MHSA(Multi-head Self-attention)は、トランスフォーマーの主要なコンポーネントであり、言語と視覚の両方で広く使われているアーキテクチャである。
本稿では,従来のMHSAアーキテクチャの後に挿入された新しい1ヘッドトランスフォーマー・アテンション・ボトルネック層を提案する。
- 参考スコア(独自算出の注目度): 21.04233359402866
- License:
- Abstract: Multi-head self-attention (MHSA) is a key component of Transformers, a widely popular architecture in both language and vision. Multiple heads intuitively enable different parallel processes over the same input. Yet, they also obscure the attribution of each input patch to the output of a model. We propose a novel 1-head Transformer Attention Bottleneck (TAB) layer, inserted after the traditional MHSA architecture, to serve as an attention bottleneck for interpretability and intervention. Unlike standard self-attention, TAB constrains the total attention over all patches to $\in [0, 1]$. That is, when the total attention is 0, no visual information is propagated further into the network and the vision-language model (VLM) would default to a generic, image-independent response. To demonstrate the advantages of TAB, we train VLMs with TAB to perform image difference captioning. Over three datasets, our models perform similarly to baseline VLMs in captioning but the bottleneck is superior in localizing changes and in identifying when no changes occur. TAB is the first architecture to enable users to intervene by editing attention, which often produces expected outputs by VLMs.
- Abstract(参考訳): MHSA(Multi-head Self-attention)は、トランスフォーマーの主要なコンポーネントであり、言語とビジョンの両方で広く使われているアーキテクチャである。
複数のヘッドは直感的に同じ入力上で異なる並列処理を可能にする。
しかし、彼らはまた、モデルの出力に対する各入力パッチの属性を曖昧にしている。
本稿では,従来のMHSAアーキテクチャの後に挿入された新しい1ヘッドトランスフォーマー・アテンション・ボトルネック(TAB)層を提案する。
通常のセルフアテンションとは異なり、TABはすべてのパッチに対する全注意を$\in [0, 1]$に制限する。
すなわち、全注意が0のとき、ネットワークに視覚情報がさらに伝播されることはなく、視覚言語モデル(VLM)は、一般的な画像に依存しない応答にデフォルトとなる。
TABの利点を示すため,画像差分キャプションを行うために,TABを用いてVLMを訓練する。
3つ以上のデータセットにおいて、我々のモデルはキャプションにおけるベースラインVLMと同様の動作を行うが、そのボトルネックは変化の局所化や変化が起こらないことの特定に優れている。
TABは、ユーザが注意を払って介入できるようにする最初のアーキテクチャであり、しばしばVLMによって期待される出力を生成する。
関連論文リスト
- A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Vision Transformer Based Model for Describing a Set of Images as a Story [26.717033245063092]
本稿では,画像の集合を物語として記述する新しいビジョントランスフォーマーベースモデルを提案する。
提案手法は視覚変換器(ViT)を用いて入力画像の特徴を抽出する。
提案モデルの性能はVisual Story-Telling dataset (VIST)を用いて評価する。
論文 参考訳(メタデータ) (2022-10-06T09:01:50Z) - Training Vision-Language Transformers from Captions [80.00302205584335]
我々は,Masked Auto-Encoders上に構築されたVLC(Vision-Language from Captions)を新たに導入する。
ViLTと我々のモデルとの直接比較の結果、我々の手法は標準ベンチマークにおいてViLTよりも優れていることが判明した。
論文 参考訳(メタデータ) (2022-05-19T00:19:48Z) - BViT: Broad Attention based Vision Transformer [13.994231768182907]
本稿では,BViTと呼ばれる視覚変換器において,異なるレイヤの注意関係を組み込むことにより,性能向上のための広範囲な注意を喚起する。
画像分類タスクの実験は、BViTが5M/22Mパラメータを持つImageNet上で74.8%/81.6%の最先端の精度を提供することを示した。
論文 参考訳(メタデータ) (2022-02-13T09:23:29Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - TransFER: Learning Relation-aware Facial Expression Representations with
Transformers [28.168810464145313]
そこで我々は,リッチリレーショナル・アウェアな局所表現を学習可能なTransFERモデルを提案する。
主にMulti-Attention Dropping (MAD)、ViT-FER、Multi-head Self-Attention Dropping (MSAD)の3つのコンポーネントで構成されている。
論文 参考訳(メタデータ) (2021-08-25T08:28:34Z) - Contextual Transformer Networks for Visual Recognition [103.79062359677452]
視覚認識のための新しいTransformerスタイルのモジュールであるContextual Transformer(CoT)ブロックを設計する。
このような設計は、動的注意行列の学習を導くために入力キー間のコンテキスト情報を完全に活用する。
私たちのCoTブロックは、ResNetアーキテクチャにおける3ドル3ドルの畳み込みを簡単に置き換えられるという視点で魅力的です。
論文 参考訳(メタデータ) (2021-07-26T16:00:21Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。