論文の概要: Towards More Faithful Natural Language Explanation Using Multi-Level
Contrastive Learning in VQA
- arxiv url: http://arxiv.org/abs/2312.13594v1
- Date: Thu, 21 Dec 2023 05:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:52:04.152649
- Title: Towards More Faithful Natural Language Explanation Using Multi-Level
Contrastive Learning in VQA
- Title(参考訳): VQAにおけるマルチレベルコントラスト学習を用いたより忠実な自然言語記述に向けて
- Authors: Chengen Lai, Shengli Song, Shiqi Meng, Jingyang Li, Sitong Yan,
Guangneng Hu
- Abstract要約: 視覚的質問応答(VQA-NLE)における自然言語の説明は,ブラックボックスシステムに対するユーザの信頼を高めるために,自然言語文を生成することによって,モデルの意思決定プロセスを説明することを目的としている。
既存のポストホックな説明は、人間の論理的推論と常に一致している訳ではなく、1) 誘惑的不満足な説明は、生成した説明が論理的に答えに繋がらないこと、2) 現実的不整合性、2) 画像上の事実を考慮せずに解答の反事実的説明を偽示すること、3) 意味的摂動の過敏性、モデルは、小さな摂動によって引き起こされる意味的変化を認識できないこと、である。
- 参考スコア(独自算出の注目度): 7.141288053123662
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Natural language explanation in visual question answer (VQA-NLE) aims to
explain the decision-making process of models by generating natural language
sentences to increase users' trust in the black-box systems. Existing post-hoc
methods have achieved significant progress in obtaining a plausible
explanation. However, such post-hoc explanations are not always aligned with
human logical inference, suffering from the issues on: 1) Deductive
unsatisfiability, the generated explanations do not logically lead to the
answer; 2) Factual inconsistency, the model falsifies its counterfactual
explanation for answers without considering the facts in images; and 3)
Semantic perturbation insensitivity, the model can not recognize the semantic
changes caused by small perturbations. These problems reduce the faithfulness
of explanations generated by models. To address the above issues, we propose a
novel self-supervised \textbf{M}ulti-level \textbf{C}ontrastive
\textbf{L}earning based natural language \textbf{E}xplanation model (MCLE) for
VQA with semantic-level, image-level, and instance-level factual and
counterfactual samples. MCLE extracts discriminative features and aligns the
feature spaces from explanations with visual question and answer to generate
more consistent explanations. We conduct extensive experiments, ablation
analysis, and case study to demonstrate the effectiveness of our method on two
VQA-NLE benchmarks.
- Abstract(参考訳): 視覚的質問応答(VQA-NLE)における自然言語の説明は,ブラックボックスシステムに対するユーザの信頼を高めるために自然言語文を生成することによって,モデルの意思決定プロセスを説明することを目的としている。
既存のポストホック法は、妥当な説明を得る上で大きな進歩を遂げた。
しかし、このようなポストホックな説明は、必ずしも人間の論理的推論と一致していない。
1) 誘惑的不満足性, 生成された説明は, 論理的に解答に導かない。
2 虚偽の矛盾は、画像の事実を考慮せずに、その反実的な回答の説明を偽造すること。
3) 意味摂動に敏感なモデルでは, 小さな摂動による意味的変化を認識できない。
これらの問題は、モデルによって生成される説明の忠実さを減少させる。
以上の課題に対処するために,VQA における意味レベル,画像レベル,事例レベルの実例および実例レベルの実例サンプルを用いた,自己教師付き \textbf{M}ulti-level \textbf{C}ontrastive \textbf{L}earning に基づく自然言語 \textbf{E}xplanation model (MCLE) を提案する。
MCLEは識別的特徴を抽出し、視覚的な質問や回答による説明から特徴空間を整列させ、より一貫した説明を生成する。
2つのVQA-NLEベンチマークにおいて,本手法の有効性を示すため,広範な実験,アブレーション解析,ケーススタディを行った。
関連論文リスト
- Explanation sensitivity to the randomness of large language models: the case of journalistic text classification [6.240875403446504]
本研究では,大規模言語モデルの学習におけるランダム要素の影響について,その予測可能性について検討する。
微調整のCamemBERTモデルと、関連性伝播に基づく説明手法を用いて、異なるランダムシードを用いたトレーニングは、類似の精度であるが可変的な説明を伴うモデルを生成する。
論文 参考訳(メタデータ) (2024-10-07T14:39:45Z) - S3C: Semi-Supervised VQA Natural Language Explanation via Self-Critical
Learning [46.787034512390434]
VQA自然言語説明(VQA-NLE)タスクは、自然言語におけるVQAモデルの意思決定プロセスを説明することを目的としている。
自己批判学習(S3C)による半教師付きVQA-NLEを提案する。
S3Cは、報酬に答えることで、解答と合理性の間の論理的整合性を改善することによって、候補説明を評価する。
論文 参考訳(メタデータ) (2023-09-05T11:47:51Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Argumentative Explanations for Pattern-Based Text Classifiers [15.81939090849456]
文分類のためのパターンベースロジスティック回帰(PLR)という,特定の解釈可能なモデルの説明に焦点をあてる。
本稿では,AXPLRを提案する。AXPLRは,計算論法を用いて説明文を生成する新しい説明法である。
論文 参考訳(メタデータ) (2022-05-22T21:16:49Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Prompting Contrastive Explanations for Commonsense Reasoning Tasks [74.7346558082693]
大規模事前学習言語モデル(PLM)は、常識推論タスクにおいて、ほぼ人間に近い性能を達成することができる。
人間の解釈可能な証拠を生成するために、同じモデルを使う方法を示す。
論文 参考訳(メタデータ) (2021-06-12T17:06:13Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。