論文の概要: Explainable Concept Generation through Vision-Language Preference Learning for Understanding Neural Networks' Internal Representations
- arxiv url: http://arxiv.org/abs/2408.13438v3
- Date: Thu, 05 Jun 2025 23:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:42.654647
- Title: Explainable Concept Generation through Vision-Language Preference Learning for Understanding Neural Networks' Internal Representations
- Title(参考訳): ニューラルネットワークの内部表現理解のための視覚言語選好学習による説明可能な概念生成
- Authors: Aditya Taparia, Som Sagar, Ransalu Senanayake,
- Abstract要約: 概念に基づく手法は、ディープニューラルネットワークをポストホックで説明するのに一般的な選択肢となっている。
視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。
提案手法は,多様な概念を効率的にかつ確実に表現する能力を示す。
- 参考スコア(独自算出の注目度): 7.736445799116692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the inner representation of a neural network helps users improve models. Concept-based methods have become a popular choice for explaining deep neural networks post-hoc because, unlike most other explainable AI techniques, they can be used to test high-level visual "concepts" that are not directly related to feature attributes. For instance, the concept of "stripes" is important to classify an image as a zebra. Concept-based explanation methods, however, require practitioners to guess and manually collect multiple candidate concept image sets, making the process labor-intensive and prone to overlooking important concepts. Addressing this limitation, in this paper, we frame concept image set creation as an image generation problem. However, since naively using a standard generative model does not result in meaningful concepts, we devise a reinforcement learning-based preference optimization (RLPO) algorithm that fine-tunes a vision-language generative model from approximate textual descriptions of concepts. Through a series of experiments, we demonstrate our method's ability to efficiently and reliably articulate diverse concepts that are otherwise challenging to craft manually.
- Abstract(参考訳): ニューラルネットワークの内部表現を理解することは、ユーザーがモデルを改善するのに役立つ。
他の説明可能なAI技術とは異なり、機能属性に直接関連しない高レベルの視覚的"概念"をテストするために使用できるため、コンセプトベースの手法は、ディープニューラルネットワークをポストホックで説明するための一般的な選択肢となっている。
例えば、「ストリップ」の概念は、イメージをシマウマとして分類することが重要である。
しかし、概念に基づく説明法では、実践者は複数の候補となる概念イメージを推測し、手動で収集する必要がある。
本稿では,この制限に対処するため,画像生成問題として概念セットの作成を行う。
しかし, 標準的な生成モデルを用いることで意味のある概念が得られないため, 概念のテキスト記述から視覚言語生成モデルを微調整する強化学習に基づく選好最適化(RLPO)アルゴリズムを考案する。
一連の実験を通じて,手作業では難しい多様な概念を効率的にかつ確実に表現する手法の能力を実証した。
関連論文リスト
- OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。
本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文 参考訳(メタデータ) (2024-07-01T14:39:41Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - CEIR: Concept-based Explainable Image Representation Learning [0.4198865250277024]
本稿では,概念に基づく説明可能な画像表現(CEIR)を導入し,ラベルに依存しない高品質な表現を導出する。
提案手法は, CIFAR10, CIFAR100, STL10などのベンチマーク上で, 最先端の非教師付きクラスタリング性能を示す。
CEIRは、微調整なしで、オープンワールドイメージから関連概念をシームレスに抽出することができる。
論文 参考訳(メタデータ) (2023-12-17T15:37:41Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - SegDiscover: Visual Concept Discovery via Unsupervised Semantic
Segmentation [29.809900593362844]
SegDiscoverは、監視なしで複雑なシーンを持つデータセットから意味論的に意味のある視覚概念を発見する新しいフレームワークである。
提案手法は, 生画像から概念プリミティブを生成し, 自己教師付き事前学習エンコーダの潜在空間をクラスタリングし, ニューラルネットワークのスムーズ化により概念の洗練を図る。
論文 参考訳(メタデータ) (2022-04-22T20:44:42Z) - Human-Centered Concept Explanations for Neural Networks [47.71169918421306]
概念活性化ベクトル(Concept Activation Vectors, CAV)のクラスを含む概念的説明を紹介する。
次に、自動的に概念を抽出するアプローチと、それらの注意事項に対処するアプローチについて議論する。
最後に、このような概念に基づく説明が、合成設定や実世界の応用において有用であることを示すケーススタディについて論じる。
論文 参考訳(メタデータ) (2022-02-25T01:27:31Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。