論文の概要: Identifying Interpretable Subspaces in Image Representations
- arxiv url: http://arxiv.org/abs/2307.10504v2
- Date: Thu, 7 Sep 2023 18:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 17:45:09.754466
- Title: Identifying Interpretable Subspaces in Image Representations
- Title(参考訳): 画像表現における解釈可能な部分空間の同定
- Authors: Neha Kalibhat, Shweta Bhardwaj, Bayan Bruss, Hamed Firooz, Maziar
Sanjabi, Soheil Feizi
- Abstract要約: コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
- 参考スコア(独自算出の注目度): 54.821222487956355
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose Automatic Feature Explanation using Contrasting Concepts (FALCON),
an interpretability framework to explain features of image representations. For
a target feature, FALCON captions its highly activating cropped images using a
large captioning dataset (like LAION-400m) and a pre-trained vision-language
model like CLIP. Each word among the captions is scored and ranked leading to a
small number of shared, human-understandable concepts that closely describe the
target feature. FALCON also applies contrastive interpretation using lowly
activating (counterfactual) images, to eliminate spurious concepts. Although
many existing approaches interpret features independently, we observe in
state-of-the-art self-supervised and supervised models, that less than 20% of
the representation space can be explained by individual features. We show that
features in larger spaces become more interpretable when studied in groups and
can be explained with high-order scoring concepts through FALCON. We discuss
how extracted concepts can be used to explain and debug failures in downstream
tasks. Finally, we present a technique to transfer concepts from one
(explainable) representation space to another unseen representation space by
learning a simple linear transformation. Code available at
https://github.com/NehaKalibhat/falcon-explain.
- Abstract(参考訳): 画像表現の特徴を解釈可能なフレームワークであるコントラスト概念(FALCON)を用いた自動特徴記述を提案する。
ターゲット機能としてFALCONは、大きなキャプションデータセット(LAION-400mなど)とCLIPのような訓練済みの視覚言語モデルを使って、高機能なクロップ画像をキャプションする。
キャプションの中の各単語はランク付けされ、ターゲットの特徴を詳細に記述した少数の共有、人間理解可能な概念へと導かれる。
FALCONはまた、低活性化(偽造)画像を用いた対照的な解釈を適用して、急激な概念を排除した。
既存の多くのアプローチは独立して特徴を解釈するが、最先端の自己監督モデルや教師付きモデルでは、表現空間の20%未満は個々の特徴によって説明できる。
より広い空間における特徴は、グループで研究するとより解釈しやすくなり、FALCONを通して高次スコアリングの概念で説明できることを示す。
下流タスクにおける障害の説明とデバッグに抽出された概念をどのように利用できるかについて議論する。
最後に、簡単な線形変換を学習することにより、ある(説明可能な)表現空間から別の見えない表現空間へ概念を移す手法を提案する。
コードはhttps://github.com/nehakalibhat/falcon-explain。
関連論文リスト
- Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z) - A Disentangling Invertible Interpretation Network for Explaining Latent
Representations [19.398202091883366]
ユーザにとって理解しやすい意味概念への隠された表現の翻訳として解釈を定式化する。
提案する非可逆解釈ネットワークは,既存のアーキテクチャ上で透過的に適用可能である。
本稿では,2つのイメージをスケッチするだけでなく,教師なしの戦略によって意味概念を定義するための効率的な手法を提案する。
論文 参考訳(メタデータ) (2020-04-27T20:43:20Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。