論文の概要: SPARO: Selective Attention for Robust and Compositional Transformer Encodings for Vision
- arxiv url: http://arxiv.org/abs/2404.15721v2
- Date: Sat, 14 Sep 2024 05:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 02:25:37.003409
- Title: SPARO: Selective Attention for Robust and Compositional Transformer Encodings for Vision
- Title(参考訳): SPARO: 視覚のためのロバストおよびコンポジショントランスフォーマーエンコーディングのための選択的注意
- Authors: Ankit Vani, Bac Nguyen, Samuel Lavoie, Ranjay Krishna, Aaron Courville,
- Abstract要約: 本稿では,エンコーディングを別個のスロットに分割する読み出し機構であるSPAROを提案する。
下流認識、ロバスト性、検索、構成性ベンチマークの改善を示す。
また、下流タスク性能をさらに向上させるために、個々のSPARO概念に介入し、選択する強力な能力を示す。
- 参考スコア(独自算出の注目度): 16.766922148448952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selective attention helps us focus on task-relevant aspects in the constant flood of our sensory input. This constraint in our perception allows us to robustly generalize under distractions and to new compositions of perceivable concepts. Transformers employ a similar notion of attention in their architecture, but representation learning models with transformer backbones like CLIP and DINO often fail to demonstrate robustness and compositionality. We highlight a missing architectural prior: unlike human perception, transformer encodings do not separately attend over individual concepts. In response, we propose SPARO, a read-out mechanism that partitions encodings into separately-attended slots, each produced by a single attention head. Using SPARO with CLIP imparts an inductive bias that the vision and text modalities are different views of a shared compositional world with the same corresponding concepts. Using SPARO, we demonstrate improvements on downstream recognition, robustness, retrieval, and compositionality benchmarks with CLIP (up to +14% for ImageNet, +4% for SugarCrepe), and on nearest neighbors and linear probe for ImageNet with DINO (+3% each). We also showcase a powerful ability to intervene and select individual SPARO concepts to further improve downstream task performance (up from +4% to +9% for SugarCrepe) and use this ability to study the robustness of SPARO's representation structure. Finally, we provide insights through ablation experiments and visualization of learned concepts.
- Abstract(参考訳): 選択的な注意は、感覚入力の絶え間ない洪水におけるタスク関連側面に焦点を合わせるのに役立ちます。
この知覚の制約は、注意を散らし、知覚可能な概念の新しい構成にしっかりと一般化することを可能にする。
しかし、CLIPやDINOのようなトランスフォーマーバックボーンを持つ表現学習モデルは、堅牢性や構成性を示すのに失敗することが多い。
人間の知覚とは異なり、トランスフォーマーエンコーディングは個々の概念を別々に扱うものではない。
そこで本研究では,SPAROを提案する。SPAROは1つのアテンションヘッドによって生成され,エンコーディングを別個のアテンションスロットに分割する読み出し機構である。
CLIPによるSPAROの使用は、視覚とテキストのモダリティが同じ概念を持つ共有構成世界の異なる視点であることを示す帰納的バイアスを与える。
SPAROを用いて、CLIPによる下流認識、ロバスト性、検索、構成性ベンチマークの改善(ImageNetは+14%、SugarCrepeは+4%)、およびDINOによるImageNetの近接および線形プローブ(+3%)について示す。
また,各SPARO概念に介入して選択し,下流タスク性能(SugarCrepeでは+4%から+9%まで)をさらに向上させ,SPAROの表現構造の堅牢性について検討する強力な能力についても紹介する。
最後に、アブレーション実験と学習概念の可視化を通して洞察を提供する。
関連論文リスト
- Rethinking Decoders for Transformer-based Semantic Segmentation: Compression is All You Need [3.218600495900291]
セマンティックセグメンテーションと圧縮の間には根本的な関係があることを論じる。
PrIncipled SemantiC SegemenTation(DEPICT)のためのホワイトボックス完全注意型Decoderを考案した。
ADE20Kで行った実験では、DEPICTはブラックボックスであるSegmenterよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-05T12:10:02Z) - Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning [41.81009725976217]
視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。
テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
論文 参考訳(メタデータ) (2024-05-26T01:46:22Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - CEIR: Concept-based Explainable Image Representation Learning [0.4198865250277024]
本稿では,概念に基づく説明可能な画像表現(CEIR)を導入し,ラベルに依存しない高品質な表現を導出する。
提案手法は, CIFAR10, CIFAR100, STL10などのベンチマーク上で, 最先端の非教師付きクラスタリング性能を示す。
CEIRは、微調整なしで、オープンワールドイメージから関連概念をシームレスに抽出することができる。
論文 参考訳(メタデータ) (2023-12-17T15:37:41Z) - Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration [58.11518043688793]
MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高める新しいアプローチである。
MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
論文 参考訳(メタデータ) (2023-12-05T17:47:11Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - RePre: Improving Self-Supervised Vision Transformer with Reconstructive
Pre-training [80.44284270879028]
本稿では,Reconstructive Pre-Training (RePre) を用いて,局所特徴学習を自己教師型視覚変換器に組み込む。
我々のRePreは、既存のコントラストの目的と平行して生画像のピクセルを再構成するブランチを追加することで、コントラストのフレームワークを拡張します。
論文 参考訳(メタデータ) (2022-01-18T10:24:58Z) - Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文 参考訳(メタデータ) (2021-11-04T17:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。