論文の概要: Interpreting CLIP's Image Representation via Text-Based Decomposition
- arxiv url: http://arxiv.org/abs/2310.05916v3
- Date: Mon, 22 Jan 2024 18:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:25:27.824247
- Title: Interpreting CLIP's Image Representation via Text-Based Decomposition
- Title(参考訳): テキストに基づく分解によるクリップ画像の解釈
- Authors: Yossi Gandelsman, Alexei A. Efros, Jacob Steinhardt
- Abstract要約: CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
- 参考スコア(独自算出の注目度): 80.34129476152519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the CLIP image encoder by analyzing how individual model
components affect the final representation. We decompose the image
representation as a sum across individual image patches, model layers, and
attention heads, and use CLIP's text representation to interpret the summands.
Interpreting the attention heads, we characterize each head's role by
automatically finding text representations that span its output space, which
reveals property-specific roles for many heads (e.g. location or shape). Next,
interpreting the image patches, we uncover an emergent spatial localization
within CLIP. Finally, we use this understanding to remove spurious features
from CLIP and to create a strong zero-shot image segmenter. Our results
indicate that a scalable understanding of transformer models is attainable and
can be used to repair and improve models.
- Abstract(参考訳): CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
我々は,個々の画像パッチ,モデルレイヤ,注意ヘッドの合計として画像表現を分解し,クリップのテキスト表現を用いて要約を解釈する。
注目ヘッドを解釈し、出力空間にまたがるテキスト表現を自動的に見つけ、多くのヘッド(例えば、位置や形状)のプロパティ固有の役割を明らかにすることで、各ヘッドの役割を特徴付ける。
次に、画像パッチを解釈し、CLIP内の創発的な空間的局在を明らかにする。
最後に、この理解を用いて、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成する。
その結果、トランスフォーマーモデルのスケーラブルな理解が実現可能であり、モデルの修復と改善に使用できることがわかった。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP [53.18562650350898]
私たちは、CLIP以外のViTにおける様々なコンポーネントの役割を識別できる一般的なフレームワークを紹介します。
また,特定の特徴について重要な要素をランク付けするための新しいスコアリング機能も導入する。
フレームワークをさまざまなViT変種に適用することで、特定の画像機能に関するさまざまなコンポーネントの役割について、洞察を得ることができます。
論文 参考訳(メタデータ) (2024-06-03T17:58:43Z) - CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense
Prediction [67.43527289422978]
そこで我々は,CLIPSelfというアプローチを提案し,CLIP ViTの画像レベルの認識能力を局所画像領域に適用する。
オープンボキャブラリオブジェクト検出,セマンティックセグメンテーション,パン光学セグメンテーションを,様々なベンチマークで実現した。
論文 参考訳(メタデータ) (2023-10-02T17:58:52Z) - ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in
Situation Recognition [20.000253437661]
状況認識とは、活動動詞を用いて画像内で起きていることの構造化された要約を生成するタスクである。
言語記述を通して画像の文脈を学習したCLIP基盤モデルを活用する。
ClipSitu XTFとして知られる当社のクロスアテンションベースのトランスフォーマーは、セマンティックロールラベリングにおいて、既存の最先端の14.1%よりも優れています。
論文 参考訳(メタデータ) (2023-07-02T15:05:15Z) - Parts of Speech-Grounded Subspaces in Vision-Language Models [32.497303059356334]
本稿では,CLIPの視覚-言語空間における異なる視覚的モダリティの表現を分離することを提案する。
音声の特定の部分に対応する変動を捉える部分空間を学習し、他の部分への変動を最小化する。
提案手法は,視覚的外観に対応するサブ空間の学習を容易にする。
論文 参考訳(メタデータ) (2023-05-23T13:32:19Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - Injecting Image Details into CLIP's Feature Space [29.450159407113155]
本稿では,高解像度画像に対して単一の特徴表現を生成できる効率的なフレームワークを提案する。
このフレームワークでは、慎重に設計した画像パッチ法から抽出したCLIP機能に基づいて、機能融合モデルを訓練する。
実世界および合成データセット上のクラストリガークエリから画像を取得することで、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2022-08-31T06:18:10Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。