論文の概要: CEIR: Concept-based Explainable Image Representation Learning
- arxiv url: http://arxiv.org/abs/2312.10747v1
- Date: Sun, 17 Dec 2023 15:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:47:35.273200
- Title: CEIR: Concept-based Explainable Image Representation Learning
- Title(参考訳): CEIR:概念に基づく説明可能な画像表現学習
- Authors: Yan Cui, Shuhong Liu, Liuzhuozheng Li, Zhiyuan Yuan
- Abstract要約: 本稿では,概念に基づく説明可能な画像表現(CEIR)を導入し,ラベルに依存しない高品質な表現を導出する。
提案手法は, CIFAR10, CIFAR100, STL10などのベンチマーク上で, 最先端の非教師付きクラスタリング性能を示す。
CEIRは、微調整なしで、オープンワールドイメージから関連概念をシームレスに抽出することができる。
- 参考スコア(独自算出の注目度): 0.4198865250277024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In modern machine learning, the trend of harnessing self-supervised learning
to derive high-quality representations without label dependency has garnered
significant attention. However, the absence of label information, coupled with
the inherently high-dimensional nature, improves the difficulty for the
interpretation of learned representations. Consequently, indirect evaluations
become the popular metric for evaluating the quality of these features, leading
to a biased validation of the learned representation rationale. To address
these challenges, we introduce a novel approach termed Concept-based
Explainable Image Representation (CEIR). Initially, using the Concept-based
Model (CBM) incorporated with pretrained CLIP and concepts generated by GPT-4,
we project input images into a concept vector space. Subsequently, a
Variational Autoencoder (VAE) learns the latent representation from these
projected concepts, which serves as the final image representation. Due to the
capability of the representation to encapsulate high-level, semantically
relevant concepts, the model allows for attributions to a human-comprehensible
concept space. This not only enhances interpretability but also preserves the
robustness essential for downstream tasks. For instance, our method exhibits
state-of-the-art unsupervised clustering performance on benchmarks such as
CIFAR10, CIFAR100, and STL10. Furthermore, capitalizing on the universality of
human conceptual understanding, CEIR can seamlessly extract the related concept
from open-world images without fine-tuning. This offers a fresh approach to
automatic label generation and label manipulation.
- Abstract(参考訳): 現代の機械学習では、ラベル依存のない高品質表現を導出するために自己教師付き学習を利用する傾向が注目されている。
しかし、ラベル情報の欠如は本質的に高次元の性質と相まって、学習表現の解釈の困難さを改善する。
その結果、間接評価はこれらの特徴の質を評価するための一般的な指標となり、学習された表現の合理性のバイアスのある検証につながる。
これらの課題に対処するため,概念ベース Explainable Image Representation (CEIR) という新しいアプローチを導入する。
当初、事前訓練されたCLIPとGPT-4で生成された概念を組み込んだ概念ベースモデル(CBM)を用いて、入力画像を概念ベクトル空間に投影する。
その後、変分オートエンコーダ(VAE)は、最終的な画像表現として機能するこれらの投影された概念から潜在表現を学習する。
高レベルの意味論的概念をカプセル化する表現能力のため、このモデルは人間の理解可能な概念空間への帰属を可能にする。
これにより解釈性が向上するだけでなく、ダウンストリームタスクに必要な堅牢性も維持される。
例えば、CIFAR10、CIFAR100、STL10などのベンチマーク上で、最先端の教師なしクラスタリング性能を示す。
さらに、人間の概念的理解の普遍性に乗じて、CEIRは微調整なしでオープンワールドイメージから関連概念をシームレスに抽出することができる。
これは自動ラベル生成とラベル操作に対する新しいアプローチを提供する。
関連論文リスト
- Explainable Concept Generation through Vision-Language Preference Learning [7.736445799116692]
概念に基づく説明は、ポストホック後のディープニューラルネットワークを説明するための一般的な選択肢となっている。
視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。
提案手法の有効性と信頼性に加えて,ニューラルネットワーク解析の診断ツールとしての有用性を示す。
論文 参考訳(メタデータ) (2024-08-24T02:26:42Z) - Knowledge graphs for empirical concept retrieval [1.06378109904813]
概念に基づく説明可能なAIは、あるユーザの前提における複雑なモデルの理解を改善するツールとして期待されている。
本稿では,テキスト領域と画像領域の両方でユーザ主導のデータ収集を行うワークフローを提案する。
我々は,概念アクティベーションベクトル(CAV)と概念アクティベーション領域(CAR)の2つの概念ベース説明可能性手法を用いて,検索した概念データセットをテストする。
論文 参考訳(メタデータ) (2024-04-10T13:47:22Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z) - Visual Concepts Tokenization [65.61987357146997]
本稿では,教師なしトランスフォーマーに基づく視覚概念トークン化フレームワーク VCT を提案する。
これらの概念トークンを得るためには、概念トークン間の自己注意なしで画像トークン層から視覚情報を抽出するために、クロスアテンションのみを用いる。
さらに,異なる概念トークンが独立した視覚概念を表現することを容易にするために,概念分離損失を提案する。
論文 参考訳(メタデータ) (2022-05-20T11:25:31Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Translational Concept Embedding for Generalized Compositional Zero-shot
Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。
本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-20T21:27:51Z) - Interactive Disentanglement: Learning Concepts by Interacting with their
Prototype Representations [15.284688801788912]
本稿では,ニューラル概念学習者の潜伏空間の理解と改訂のためのプロトタイプ表現の利点を示す。
この目的のために,対話型概念スワッピングネットワーク(iCSN)を導入する。
iCSNは、ペア画像の潜在表現を交換することで、概念情報を特定のプロトタイプスロットにバインドすることを学ぶ。
論文 参考訳(メタデータ) (2021-12-04T09:25:40Z) - Interpretable Visual Reasoning via Induced Symbolic Space [75.95241948390472]
視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。
我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
論文 参考訳(メタデータ) (2020-11-23T18:21:49Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。