論文の概要: Identifying Interpretable Subspaces in Image Representations
- arxiv url: http://arxiv.org/abs/2307.10504v1
- Date: Thu, 20 Jul 2023 00:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 15:20:32.426389
- Title: Identifying Interpretable Subspaces in Image Representations
- Title(参考訳): 画像表現における解釈可能な部分空間の同定
- Authors: Neha Kalibhat, Shweta Bhardwaj, Bayan Bruss, Hamed Firooz, Maziar
Sanjabi, Soheil Feizi
- Abstract要約: コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
- 参考スコア(独自算出の注目度): 45.15793835122711
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose Automatic Feature Explanation using Contrasting Concepts (FALCON),
an interpretability framework to explain features of image representations. For
a target feature, FALCON captions its highly activating cropped images using a
large captioning dataset (like LAION-400m) and a pre-trained vision-language
model like CLIP. Each word among the captions is scored and ranked leading to a
small number of shared, human-understandable concepts that closely describe the
target feature. FALCON also applies contrastive interpretation using lowly
activating (counterfactual) images, to eliminate spurious concepts. Although
many existing approaches interpret features independently, we observe in
state-of-the-art self-supervised and supervised models, that less than 20% of
the representation space can be explained by individual features. We show that
features in larger spaces become more interpretable when studied in groups and
can be explained with high-order scoring concepts through FALCON. We discuss
how extracted concepts can be used to explain and debug failures in downstream
tasks. Finally, we present a technique to transfer concepts from one
(explainable) representation space to another unseen representation space by
learning a simple linear transformation.
- Abstract(参考訳): 画像表現の特徴を解釈可能なフレームワークであるコントラスト概念(FALCON)を用いた自動特徴記述を提案する。
ターゲット機能としてFALCONは、大きなキャプションデータセット(LAION-400mなど)とCLIPのような訓練済みの視覚言語モデルを使って、高機能なクロップ画像をキャプションする。
キャプションの中の各単語はランク付けされ、ターゲットの特徴を詳細に記述した少数の共有、人間理解可能な概念へと導かれる。
FALCONはまた、低活性化(偽造)画像を用いた対照的な解釈を適用して、急激な概念を排除した。
既存の多くのアプローチは独立して特徴を解釈するが、最先端の自己監督モデルや教師付きモデルでは、表現空間の20%未満は個々の特徴によって説明できる。
より広い空間における特徴は、グループで研究するとより解釈しやすくなり、FALCONを通して高次スコアリングの概念で説明できることを示す。
下流タスクにおける障害の説明とデバッグに抽出された概念をどのように利用できるかについて議論する。
最後に、簡単な線形変換を学習することにより、ある(説明可能な)表現空間から別の見えない表現空間へ概念を移す手法を提案する。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。