論文の概要: Zero-Shot Textual Explanations via Translating Decision-Critical Features
- arxiv url: http://arxiv.org/abs/2512.07245v1
- Date: Mon, 08 Dec 2025 07:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.762445
- Title: Zero-Shot Textual Explanations via Translating Decision-Critical Features
- Title(参考訳): 決定批判的特徴の翻訳によるゼロショットテキスト記述
- Authors: Toshinori Yamauchi, Hiroshi Kera, Kazuhiko Kawamoto,
- Abstract要約: テキストによる説明は、自然言語の予測論理を記述することによって、画像分類器の決定を透過的にする。
TEXTERは、予測に寄与するニューロンを特定し、これらのニューロンにコードされる特徴を強調する。
そして、これらの強調された機能をCLIP機能空間にマッピングし、モデルの推論を反映したテキスト説明を取得する。
- 参考スコア(独自算出の注目度): 12.961180148172199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual explanations make image classifier decisions transparent by describing the prediction rationale in natural language. Large vision-language models can generate captions but are designed for general visual understanding, not classifier-specific reasoning. Existing zero-shot explanation methods align global image features with language, producing descriptions of what is visible rather than what drives the prediction. We propose TEXTER, which overcomes this limitation by isolating decision-critical features before alignment. TEXTER identifies the neurons contributing to the prediction and emphasizes the features encoded in those neurons -- i.e., the decision-critical features. It then maps these emphasized features into the CLIP feature space to retrieve textual explanations that reflect the model's reasoning. A sparse autoencoder further improves interpretability, particularly for Transformer architectures. Extensive experiments show that TEXTER generates more faithful and interpretable explanations than existing methods. The code will be publicly released.
- Abstract(参考訳): テキストによる説明は、自然言語の予測論理を記述することによって、画像分類器の決定を透過的にする。
大きな視覚言語モデルはキャプションを生成することができるが、分類器固有の推論ではなく、一般的な視覚的理解のために設計されている。
既存のゼロショット説明法は、グローバルな画像特徴と言語を一致させ、予測を駆動するものではなく、目に見えるものの記述を生成する。
我々は,決定クリティカルな特徴をアライメント前に分離することで,この制限を克服するTEXTERを提案する。
TEXTERは、予測に寄与するニューロンを特定し、これらのニューロンにコードされる特徴、すなわち決定クリティカルな特徴を強調する。
そして、これらの強調された機能をCLIP機能空間にマッピングし、モデルの推論を反映したテキスト説明を取得する。
スパースオートエンコーダは、特にTransformerアーキテクチャの解釈性をさらに向上させる。
大規模な実験により、TEXTERは既存の方法よりも忠実で解釈可能な説明を生成することが示された。
コードは公開されます。
関連論文リスト
- DEXTER: Diffusion-Guided EXplanations with TExtual Reasoning for Vision Models [49.25757423776323]
DEXTERは、視覚分類器のグローバルでテキストによる説明を生成する、データフリーのフレームワークである。
我々はDEXTERが正確な解釈可能な出力を生成することを示す。
ImageNet、Waterbirds、CelebA、FairFacesの実験では、DEXTERがグローバルモデル説明やクラスレベルのバイアスレポートにおいて、既存のアプローチよりも優れていることを確認した。
論文 参考訳(メタデータ) (2025-10-16T14:43:25Z) - SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAGReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - Explanations that reveal all through the definition of encoding [18.016204264115462]
我々は、条件依存によってこの余分な予測力を識別する符号化の定義を開発する。
既存のスコアは、上述のエンコード説明をランク付けしないことを証明し、それらを正しくランク付けするSTRIPE-Xを開発する。
論文 参考訳(メタデータ) (2024-11-04T23:00:24Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - Chunk-aware Alignment and Lexical Constraint for Visual Entailment with
Natural Language Explanations [38.50987889221086]
自然言語による視覚的な説明は、テキストと画像のペアの関係を推測し、意思決定プロセスを説明する文を生成することを目的としている。
従来の手法は、主に事前学習された視覚言語モデルを使用して、関係推論と言語モデルを実行し、対応する説明を生成する。
本稿では,CALeC と呼ばれる,Chunk-aware Alignment と Lexical Constraint に基づく統一手法を提案する。
論文 参考訳(メタデータ) (2022-07-23T03:19:50Z) - Improving Few-Shot Image Classification Using Machine- and
User-Generated Natural Language Descriptions [10.187432367590201]
人間は言語記述から新しい視覚概念の知識を得ることができる。
提案するモデルであるLIDEは、記述を生成するテキストデコーダと、マシンまたはユーザ生成記述のテキスト表現を取得するテキストエンコーダを備えている。
論文 参考訳(メタデータ) (2022-07-07T07:48:06Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。