論文の概要: Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP
- arxiv url: http://arxiv.org/abs/2406.01583v1
- Date: Mon, 3 Jun 2024 17:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 21:41:25.381826
- Title: Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP
- Title(参考訳): CLIP 以外の ViT におけるテキストによる画像表現の分解と解釈
- Authors: Sriram Balasubramanian, Samyadeep Basu, Soheil Feizi,
- Abstract要約: 任意の視覚変換器(ViT)における様々なコンポーネントの役割を識別するフレームワークを提案する。
具体的には、最終的な表現の分解を、異なるモデルコンポーネントからのコントリビューションに自動化する。
また,特定の特徴について重要な要素をランク付けするための新しいスコアリング機能も導入する。
- 参考スコア(独自算出の注目度): 53.18562650350898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have explored how individual components of the CLIP-ViT model contribute to the final representation by leveraging the shared image-text representation space of CLIP. These components, such as attention heads and MLPs, have been shown to capture distinct image features like shape, color or texture. However, understanding the role of these components in arbitrary vision transformers (ViTs) is challenging. To this end, we introduce a general framework which can identify the roles of various components in ViTs beyond CLIP. Specifically, we (a) automate the decomposition of the final representation into contributions from different model components, and (b) linearly map these contributions to CLIP space to interpret them via text. Additionally, we introduce a novel scoring function to rank components by their importance with respect to specific features. Applying our framework to various ViT variants (e.g. DeiT, DINO, DINOv2, Swin, MaxViT), we gain insights into the roles of different components concerning particular image features.These insights facilitate applications such as image retrieval using text descriptions or reference images, visualizing token importance heatmaps, and mitigating spurious correlations.
- Abstract(参考訳): 最近の研究は、CLIP-ViTモデルの個々のコンポーネントが、CLIPの共有画像テキスト表現空間を活用することで、最終的な表現にどのように貢献するかを探求している。
これらのコンポーネント、例えばアテンションヘッドやMLPは、形状、色、テクスチャといった異なる画像の特徴を捉えている。
しかし、任意の視覚変換器(ViT)におけるこれらのコンポーネントの役割を理解することは困難である。
この目的のために、CLIP以外のViTにおける様々なコンポーネントの役割を識別できる一般的なフレームワークを紹介します。
具体的には
(a) 異なるモデルコンポーネントからのコントリビューションへの最終表現の分解を自動化し、
b) これらのコントリビューションをCLIP空間に線形にマッピングしてテキストで解釈する。
さらに,特定の特徴について重要な要素をランク付けする新しいスコアリング機能を導入する。
これらの知見は, テキスト記述や参照画像を用いた画像検索, トークンの重要度熱マップの可視化, スパイラル相関の緩和など, 様々なViT変異体(例: DeiT, DINO, DINOv2, Swin, MaxViT)にフレームワークを適用し, 特定の画像特徴に関する異なるコンポーネントの役割についての洞察を得る。
関連論文リスト
- Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning [41.81009725976217]
視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。
テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
論文 参考訳(メタデータ) (2024-05-26T01:46:22Z) - Improving Referring Image Segmentation using Vision-Aware Text Features [26.768147543628096]
VATEXは、視覚認識テキスト機能によるオブジェクトとコンテキスト理解の強化により、参照画像のセグメンテーションを改善する。
提案手法は,RefCOCO,RefCO+,G-Ref. Codeの3つのベンチマークデータセットに対して,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [73.54377859089801]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Parts of Speech-Grounded Subspaces in Vision-Language Models [32.497303059356334]
本稿では,CLIPの視覚-言語空間における異なる視覚的モダリティの表現を分離することを提案する。
音声の特定の部分に対応する変動を捉える部分空間を学習し、他の部分への変動を最小化する。
提案手法は,視覚的外観に対応するサブ空間の学習を容易にする。
論文 参考訳(メタデータ) (2023-05-23T13:32:19Z) - Splicing ViT Features for Semantic Appearance Transfer [10.295754142142686]
本稿では,ある自然画像の視覚的外観を別の自然画像に意味的に伝達する手法を提案する。
具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。
論文 参考訳(メタデータ) (2022-01-02T22:00:34Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Learning Physical Graph Representations from Visual Scenes [56.7938395379406]
物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。