論文の概要: MEGL: Multimodal Explanation-Guided Learning
- arxiv url: http://arxiv.org/abs/2411.13053v1
- Date: Wed, 20 Nov 2024 05:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:35.855560
- Title: MEGL: Multimodal Explanation-Guided Learning
- Title(参考訳): MEGL:マルチモーダルな説明指導型学習
- Authors: Yifei Zhang, Tianxu Jiang, Bo Pan, Jingyu Wang, Guangji Bai, Liang Zhao,
- Abstract要約: 本稿では,モデル解釈性の向上と分類性能の向上を目的とした,新しいマルチモーダル説明誘導学習(MEGL)フレームワークを提案する。
我々のSDTG(Saliency-Driven Textual Grounding)アプローチは、視覚的説明からテキスト論理へ空間情報を統合し、空間的根拠と文脈的リッチな説明を提供する。
我々は、マルチモーダルな説明を伴う画像分類のための2つの新しいデータセットであるObject-MEとAction-MEでMEGLを検証した。
- 参考スコア(独自算出の注目度): 23.54169888224728
- License:
- Abstract: Explaining the decision-making processes of Artificial Intelligence (AI) models is crucial for addressing their "black box" nature, particularly in tasks like image classification. Traditional eXplainable AI (XAI) methods typically rely on unimodal explanations, either visual or textual, each with inherent limitations. Visual explanations highlight key regions but often lack rationale, while textual explanations provide context without spatial grounding. Further, both explanation types can be inconsistent or incomplete, limiting their reliability. To address these challenges, we propose a novel Multimodal Explanation-Guided Learning (MEGL) framework that leverages both visual and textual explanations to enhance model interpretability and improve classification performance. Our Saliency-Driven Textual Grounding (SDTG) approach integrates spatial information from visual explanations into textual rationales, providing spatially grounded and contextually rich explanations. Additionally, we introduce Textual Supervision on Visual Explanations to align visual explanations with textual rationales, even in cases where ground truth visual annotations are missing. A Visual Explanation Distribution Consistency loss further reinforces visual coherence by aligning the generated visual explanations with dataset-level patterns, enabling the model to effectively learn from incomplete multimodal supervision. We validate MEGL on two new datasets, Object-ME and Action-ME, for image classification with multimodal explanations. Experimental results demonstrate that MEGL outperforms previous approaches in prediction accuracy and explanation quality across both visual and textual domains. Our code will be made available upon the acceptance of the paper.
- Abstract(参考訳): 人工知能(AI)モデルの意思決定プロセスを説明することは、特に画像分類のようなタスクにおいて、その“ブラックボックス”の性質に対処するために不可欠である。
従来のeXplainable AI(XAI)メソッドは、通常、視覚的またはテキスト的、それぞれ固有の制限のある非モジュアルな説明に依存している。
視覚的な説明は重要な領域を浮き彫りにするが、しばしば理性に欠ける。
さらに、どちらの説明型も矛盾または不完全であり、信頼性が制限される。
これらの課題に対処するために,視覚的・テキスト的説明を活用してモデルの解釈性を高め,分類性能を向上させる,新しいマルチモーダル説明誘導学習(MEGL)フレームワークを提案する。
我々のSDTG(Saliency-Driven Textual Grounding)アプローチは、視覚的説明からテキスト論理へ空間情報を統合し、空間的根拠と文脈的リッチな説明を提供する。
さらに,本論文では,視覚的説明をテキスト的論理と整合させるために,視覚的説明のテクスチュアル・スーパービジョンを導入している。
ビジュアル説明分布整合性損失は、生成した視覚的説明とデータセットレベルのパターンを整合させることにより、視覚的コヒーレンスをさらに強化し、不完全なマルチモーダル監視から効果的に学習することを可能にする。
我々は、マルチモーダルな説明を伴う画像分類のための2つの新しいデータセットであるObject-MEとAction-MEでMEGLを検証した。
実験の結果,MEGLは視覚領域とテキスト領域の両方において,予測精度と説明品質において従来の手法よりも優れていた。
私たちのコードは、論文の受理時に利用可能になります。
関連論文リスト
- VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models [0.0]
VALE Visual and Language Explanation という新しいフレームワークを提案する。
VALEは説明可能なAI技術と高度な言語モデルを統合し、包括的な説明を提供する。
本稿では,画像分類タスクのためのVALEフレームワークの試験的検討を行う。
論文 参考訳(メタデータ) (2024-08-23T03:02:11Z) - Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。
P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - REX: Reasoning-aware and Grounded Explanation [30.392986232906107]
我々は,画像中の推論プロセスとグラウンド化キーワードをトラバースすることで,意思決定を説明する,新しいタイプのマルチモーダルな説明を開発する。
第2に、意思決定を説明するために、視覚的およびテキスト的モダリティに重要なコンポーネントを密に結合する必要があることを特定する。
第3に、単語と興味のある領域のペアワイズ対応を明示的にモデル化する、新しい説明生成手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T17:28:42Z) - A First Look: Towards Explainable TextVQA Models via Visual and Textual
Explanations [3.7638008383533856]
MTXNetは、エンドツーエンドのトレーニング可能なマルチモーダルアーキテクチャで、マルチモーダルな説明を生成する。
マルチモーダルな説明によるトレーニングは、CIDErスコアで最大7%、IoUでは2%を超えることが示されています。
また,生成したマルチモーダル説明を利用した実世界の電子商取引アプリケーションについても述べる。
論文 参考訳(メタデータ) (2021-04-29T00:36:17Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - Survey of explainable machine learning with visual and granular methods
beyond quasi-explanations [0.0]
我々は、MLで支配的な準説明から、粒度の視覚によって支えられるドメイン固有の説明に移行することに注力する。
この論文は、ジョンソン-リンデンシュトラウス補題に基づくn-D距離の低次元保存に関する理論的限界に関する結果を含む。
論文 参考訳(メタデータ) (2020-09-21T23:39:06Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。