論文の概要: Exploiting Text-Image Latent Spaces for the Description of Visual Concepts
- arxiv url: http://arxiv.org/abs/2410.17832v1
- Date: Wed, 23 Oct 2024 12:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:44.494037
- Title: Exploiting Text-Image Latent Spaces for the Description of Visual Concepts
- Title(参考訳): 視覚概念記述のためのテキスト画像遅延空間の爆発的展開
- Authors: Laines Schmalwasser, Jakob Gawlikowski, Joachim Denzler, Julia Niebling,
- Abstract要約: コンセプトアクティベーションベクトル(Concept Activation Vectors, CAV)は、人間のフレンドリな概念をモデルの内部的特徴抽出プロセスにリンクすることで、ニューラルネットワークの意思決定に関する洞察を提供する。
新しいCAVが発見されたとき、それらは人間の理解可能な記述に翻訳されなければならない。
本稿では,新たに発見された概念集合の解釈を支援するために,各CAVに対してテキスト記述を提案する。
- 参考スコア(独自算出の注目度): 13.287533148600248
- License:
- Abstract: Concept Activation Vectors (CAVs) offer insights into neural network decision-making by linking human friendly concepts to the model's internal feature extraction process. However, when a new set of CAVs is discovered, they must still be translated into a human understandable description. For image-based neural networks, this is typically done by visualizing the most relevant images of a CAV, while the determination of the concept is left to humans. In this work, we introduce an approach to aid the interpretation of newly discovered concept sets by suggesting textual descriptions for each CAV. This is done by mapping the most relevant images representing a CAV into a text-image embedding where a joint description of these relevant images can be computed. We propose utilizing the most relevant receptive fields instead of full images encoded. We demonstrate the capabilities of this approach in multiple experiments with and without given CAV labels, showing that the proposed approach provides accurate descriptions for the CAVs and reduces the challenge of concept interpretation.
- Abstract(参考訳): コンセプトアクティベーションベクトル(Concept Activation Vectors, CAV)は、人間のフレンドリな概念をモデルの内部的特徴抽出プロセスにリンクすることで、ニューラルネットワークの意思決定に関する洞察を提供する。
しかし、新しいCAVが発見されたとき、それらは人間の理解可能な記述に翻訳されなければならない。
イメージベースニューラルネットワークの場合、これは典型的には、CAVの最も関連性の高いイメージを可視化することで行われ、概念の決定は人間に委ねられる。
本研究では,CAV毎にテキスト記述を提案することによって,新たに発見された概念集合の解釈を支援するアプローチを提案する。
これは、CAVを表す最も関連性の高い画像をテキスト画像埋め込みにマッピングすることで実現される。
符号化された全画像の代わりに、最も関連性の高い受容場を活用することを提案する。
提案手法は, CAVの正確な記述を提供し, 概念解釈の課題を軽減するものであることを示す。
関連論文リスト
- Explainable Concept Generation through Vision-Language Preference Learning [7.736445799116692]
概念に基づく説明は、ポストホック後のディープニューラルネットワークを説明するための一般的な選択肢となっている。
視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。
提案手法の有効性と信頼性に加えて,ニューラルネットワーク解析の診断ツールとしての有用性を示す。
論文 参考訳(メタデータ) (2024-08-24T02:26:42Z) - TextCAVs: Debugging vision models using text [37.4673705484723]
概念のテキスト記述を用いた概念アクティベーションベクトル(CAV)を作成する新しい手法であるTextCAVを紹介する。
初期の実験では、TextCAVsが胸部X線データセット(MIMIC-CXR)と自然画像(ImageNet)について合理的に説明できることを示した。
論文 参考訳(メタデータ) (2024-08-16T10:36:08Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - CEIR: Concept-based Explainable Image Representation Learning [0.4198865250277024]
本稿では,概念に基づく説明可能な画像表現(CEIR)を導入し,ラベルに依存しない高品質な表現を導出する。
提案手法は, CIFAR10, CIFAR100, STL10などのベンチマーク上で, 最先端の非教師付きクラスタリング性能を示す。
CEIRは、微調整なしで、オープンワールドイメージから関連概念をシームレスに抽出することができる。
論文 参考訳(メタデータ) (2023-12-17T15:37:41Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - General Image-to-Image Translation with One-Shot Image Guidance [5.89808526053682]
ビジュアルコンセプトトランスレータ(VCT)という新しいフレームワークを提案する。
ソースイメージ内のコンテンツを保存し、単一の参照イメージでガイドされた視覚概念を翻訳する機能を持つ。
1つの参照画像のみを前提として、提案したVCTは、優れた結果を得ることなく、幅広い画像から画像への変換タスクを完了することができる。
論文 参考訳(メタデータ) (2023-07-20T16:37:49Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z) - Interactive Disentanglement: Learning Concepts by Interacting with their
Prototype Representations [15.284688801788912]
本稿では,ニューラル概念学習者の潜伏空間の理解と改訂のためのプロトタイプ表現の利点を示す。
この目的のために,対話型概念スワッピングネットワーク(iCSN)を導入する。
iCSNは、ペア画像の潜在表現を交換することで、概念情報を特定のプロトタイプスロットにバインドすることを学ぶ。
論文 参考訳(メタデータ) (2021-12-04T09:25:40Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。