Fugu-MT 論文翻訳(概要): Explainable Concept Generation through Vision-Language Preference Learning for Understanding Neural Networks' Internal Representations

論文の概要: Explainable Concept Generation through Vision-Language Preference Learning for Understanding Neural Networks' Internal Representations

arxiv url: http://arxiv.org/abs/2408.13438v3
Date: Thu, 05 Jun 2025 23:54:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:42.654647
Title: Explainable Concept Generation through Vision-Language Preference Learning for Understanding Neural Networks' Internal Representations
Title（参考訳）: ニューラルネットワークの内部表現理解のための視覚言語選好学習による説明可能な概念生成
Authors: Aditya Taparia, Som Sagar, Ransalu Senanayake,
Abstract要約: 概念に基づく手法は、ディープニューラルネットワークをポストホックで説明するのに一般的な選択肢となっている。視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。提案手法は,多様な概念を効率的にかつ確実に表現する能力を示す。
参考スコア（独自算出の注目度）: 7.736445799116692
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding the inner representation of a neural network helps users improve models. Concept-based methods have become a popular choice for explaining deep neural networks post-hoc because, unlike most other explainable AI techniques, they can be used to test high-level visual "concepts" that are not directly related to feature attributes. For instance, the concept of "stripes" is important to classify an image as a zebra. Concept-based explanation methods, however, require practitioners to guess and manually collect multiple candidate concept image sets, making the process labor-intensive and prone to overlooking important concepts. Addressing this limitation, in this paper, we frame concept image set creation as an image generation problem. However, since naively using a standard generative model does not result in meaningful concepts, we devise a reinforcement learning-based preference optimization (RLPO) algorithm that fine-tunes a vision-language generative model from approximate textual descriptions of concepts. Through a series of experiments, we demonstrate our method's ability to efficiently and reliably articulate diverse concepts that are otherwise challenging to craft manually.
Abstract（参考訳）: ニューラルネットワークの内部表現を理解することは、ユーザーがモデルを改善するのに役立つ。他の説明可能なAI技術とは異なり、機能属性に直接関連しない高レベルの視覚的"概念"をテストするために使用できるため、コンセプトベースの手法は、ディープニューラルネットワークをポストホックで説明するための一般的な選択肢となっている。例えば、「ストリップ」の概念は、イメージをシマウマとして分類することが重要である。しかし、概念に基づく説明法では、実践者は複数の候補となる概念イメージを推測し、手動で収集する必要がある。本稿では,この制限に対処するため,画像生成問題として概念セットの作成を行う。しかし, 標準的な生成モデルを用いることで意味のある概念が得られないため, 概念のテキスト記述から視覚言語生成モデルを微調整する強化学習に基づく選好最適化(RLPO)アルゴリズムを考案する。一連の実験を通じて,手作業では難しい多様な概念を効率的にかつ確実に表現する手法の能力を実証した。

関連論文リスト

Insight: Interpretable Semantic Hierarchies in Vision-Language Encoders [52.94006363830628]
言語対応の視覚基盤モデルは、下流の様々なタスクで強く機能する。近年の研究では、これらの表現を人間の解釈可能な概念に分解するが、空間的接地が乏しく、画像分類に限られている。入力画像に人間が解釈可能で空間的に接地した、きめ細かい概念を提供する言語対応概念基盤モデルであるInsightを提案する。
論文参考訳（メタデータ） (2026-01-20T09:57:26Z)
FaCT: Faithful Concept Traces for Explaining Neural Network Decisions [56.796533084868884]
ディープネットワークは、幅広いタスクで顕著なパフォーマンスを示しているが、それらの機能に関するグローバルな概念レベルの理解は、依然として重要な課題である。本稿では,概念に基づく説明の忠実さを強調し,モデル独立な機械的概念説明を用いた新しいモデルを提案する。私たちの概念はクラス間で共有され、あらゆるレイヤから、ロジットへの貢献と入力-視覚化を忠実にトレースすることができます。
論文参考訳（メタデータ） (2025-10-29T13:35:46Z)
Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter [52.08332620725473]
テストタイムの微調整なしにオブジェクトと抽象概念を効果的にカスタマイズできるマルチコンセプトパーソナライズのためのチューニング不要な手法を提案する。本手法は, 定量的, 質的, 人的評価によって支援された多概念パーソナライゼーションにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-24T09:21:32Z)
OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文参考訳（メタデータ） (2024-12-16T18:59:52Z)
Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文参考訳（メタデータ） (2024-07-01T14:39:41Z)
LLM-assisted Concept Discovery: Automatically Identifying and Explaining Neuron Functions [15.381209058506078]
以前の研究は、概念の例や事前に定義された概念のセットに基づいて、ニューロンに関連づけられた概念を持っている。本稿では,マルチモーダルな大規模言語モデルを用いて,自動的かつオープンな概念発見を提案する。我々は,この新たな画像に対して,サンプルと反例を生成し,ニューロンの反応を評価することにより,それぞれの概念を検証する。
論文参考訳（メタデータ） (2024-06-12T18:19:37Z)
Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T07:28:37Z)
Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文参考訳（メタデータ） (2024-01-09T16:16:16Z)
CEIR: Concept-based Explainable Image Representation Learning [0.4198865250277024]
本稿では,概念に基づく説明可能な画像表現(CEIR)を導入し,ラベルに依存しない高品質な表現を導出する。提案手法は, CIFAR10, CIFAR100, STL10などのベンチマーク上で, 最先端の非教師付きクラスタリング性能を示す。 CEIRは、微調整なしで、オープンワールドイメージから関連概念をシームレスに抽出することができる。
論文参考訳（メタデータ） (2023-12-17T15:37:41Z)
CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文参考訳（メタデータ） (2023-11-28T01:33:18Z)
ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文参考訳（メタデータ） (2023-06-07T18:00:38Z)
Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文参考訳（メタデータ） (2023-03-23T17:59:42Z)
SegDiscover: Visual Concept Discovery via Unsupervised Semantic Segmentation [29.809900593362844]
SegDiscoverは、監視なしで複雑なシーンを持つデータセットから意味論的に意味のある視覚概念を発見する新しいフレームワークである。提案手法は, 生画像から概念プリミティブを生成し, 自己教師付き事前学習エンコーダの潜在空間をクラスタリングし, ニューラルネットワークのスムーズ化により概念の洗練を図る。
論文参考訳（メタデータ） (2022-04-22T20:44:42Z)
Human-Centered Concept Explanations for Neural Networks [47.71169918421306]
概念活性化ベクトル(Concept Activation Vectors, CAV)のクラスを含む概念的説明を紹介する。次に、自動的に概念を抽出するアプローチと、それらの注意事項に対処するアプローチについて議論する。最後に、このような概念に基づく説明が、合成設定や実世界の応用において有用であることを示すケーススタディについて論じる。
論文参考訳（メタデータ） (2022-02-25T01:27:31Z)
Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文参考訳（メタデータ） (2020-02-27T16:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。