論文の概要: V-CECE: Visual Counterfactual Explanations via Conceptual Edits
- arxiv url: http://arxiv.org/abs/2509.16567v1
- Date: Sat, 20 Sep 2025 07:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.865476
- Title: V-CECE: Visual Counterfactual Explanations via Conceptual Edits
- Title(参考訳): V-CECE:概念編集による視覚的対実的説明
- Authors: Nikolaos Spanos, Maria Lymperaiou, Giorgos Filandrianos, Konstantinos Thomas, Athanasios Voulodimos, Giorgos Stamou,
- Abstract要約: プラグ・アンド・プレイのブラックボックス・デファクト・デファクト・ジェネレーション・フレームワークを提案する。
最適編集の理論的保証に基づくステップバイステップの編集を提案する。
- 参考スコア(独自算出の注目度): 14.97655807411868
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent black-box counterfactual generation frameworks fail to take into account the semantic content of the proposed edits, while relying heavily on training to guide the generation process. We propose a novel, plug-and-play black-box counterfactual generation framework, which suggests step-by-step edits based on theoretical guarantees of optimal edits to produce human-level counterfactual explanations with zero training. Our framework utilizes a pre-trained image editing diffusion model, and operates without access to the internals of the classifier, leading to an explainable counterfactual generation process. Throughout our experimentation, we showcase the explanatory gap between human reasoning and neural model behavior by utilizing both Convolutional Neural Network (CNN), Vision Transformer (ViT) and Large Vision Language Model (LVLM) classifiers, substantiated through a comprehensive human evaluation.
- Abstract(参考訳): 最近のブラックボックスのカウンターファクト生成フレームワークは、提案した編集のセマンティックな内容を考慮していないが、生成プロセスの指導にはトレーニングに大きく依存している。
そこで我々は, 最適編集の理論的保証に基づいて段階的に編集し, ゼロトレーニングによる人間レベルの非現実的説明を生成する, 新たなブラックボックス・デファクト生成フレームワークを提案する。
本フレームワークは,事前学習した画像編集拡散モデルを用いて,分類器の内部にアクセスすることなく動作し,説明可能な逆ファクト生成プロセスを実現する。
実験を通して、人間の推論とニューラルモデル行動の間には、畳み込みニューラルネットワーク(CNN)、ビジョントランスフォーマー(ViT)およびLVLM(Large Vision Language Model)分類器(LVLM)を用いて説明的ギャップを示す。
関連論文リスト
- GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing [66.33454784945293]
Generation Chain-of-Thought(GoT)は、明示的な言語推論プロセスを通じて生成と編集を可能にする新しいパラダイムである。
GoTは従来のテキストから画像への生成と編集を推論誘導フレームワークに変換する。
論文 参考訳(メタデータ) (2025-03-13T17:59:59Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Analyzing Finetuning Representation Shift for Multimodal LLMs Steering [56.710375516257876]
隠れた状態を解釈可能な視覚的概念とテキスト的概念にマッピングすることを提案する。
これにより、オリジナルモデルや微調整モデルからのシフトなど、特定のセマンティックダイナミクスをより効率的に比較することが可能になります。
また,これらの変化を捉えるためにシフトベクトルを用いることを実証する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Explainable Concept Generation through Vision-Language Preference Learning for Understanding Neural Networks' Internal Representations [7.736445799116692]
概念に基づく手法は、ディープニューラルネットワークをポストホックで説明するのに一般的な選択肢となっている。
視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。
提案手法は,多様な概念を効率的にかつ確実に表現する能力を示す。
論文 参考訳(メタデータ) (2024-08-24T02:26:42Z) - Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。
本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文 参考訳(メタデータ) (2024-07-01T14:39:41Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。