論文の概要: S3C: Semi-Supervised VQA Natural Language Explanation via Self-Critical
Learning
- arxiv url: http://arxiv.org/abs/2309.02155v1
- Date: Tue, 5 Sep 2023 11:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 15:03:44.072593
- Title: S3C: Semi-Supervised VQA Natural Language Explanation via Self-Critical
Learning
- Title(参考訳): S3C: 自己批判学習による半教師付きVQA自然言語説明
- Authors: Wei Suo, Mengyang Sun, Weisong Liu, Yiqi Gao, Peng Wang, Yanning
Zhang, Qi Wu
- Abstract要約: VQA自然言語説明(VQA-NLE)タスクは、自然言語におけるVQAモデルの意思決定プロセスを説明することを目的としている。
自己批判学習(S3C)による半教師付きVQA-NLEを提案する。
S3Cは、報酬に答えることで、解答と合理性の間の論理的整合性を改善することによって、候補説明を評価する。
- 参考スコア(独自算出の注目度): 46.787034512390434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VQA Natural Language Explanation (VQA-NLE) task aims to explain the
decision-making process of VQA models in natural language. Unlike traditional
attention or gradient analysis, free-text rationales can be easier to
understand and gain users' trust. Existing methods mostly use post-hoc or
self-rationalization models to obtain a plausible explanation. However, these
frameworks are bottlenecked by the following challenges: 1) the reasoning
process cannot be faithfully responded to and suffer from the problem of
logical inconsistency. 2) Human-annotated explanations are expensive and
time-consuming to collect. In this paper, we propose a new Semi-Supervised
VQA-NLE via Self-Critical Learning (S3C), which evaluates the candidate
explanations by answering rewards to improve the logical consistency between
answers and rationales. With a semi-supervised learning framework, the S3C can
benefit from a tremendous amount of samples without human-annotated
explanations. A large number of automatic measures and human evaluations all
show the effectiveness of our method. Meanwhile, the framework achieves a new
state-of-the-art performance on the two VQA-NLE datasets.
- Abstract(参考訳): VQA自然言語説明(VQA-NLE)タスクは、自然言語におけるVQAモデルの意思決定プロセスを説明することを目的としている。
従来の注意や勾配分析とは異なり、自由文理性はユーザーの信頼を得るのが容易である。
既存の方法は、ほとんどがポストホックあるいは自己有理化モデルを使用して、妥当な説明を得る。
しかしながら、これらのフレームワークは以下の課題によってボトルネックになっている。
1) 推論過程は, 論理的不整合の問題に対して忠実に対応できず, 対処できない。
2)人間の注釈による説明は高価で収集に時間がかかる。
本稿では,自己批判学習(S3C)を用いた半教師付きVQA-NLEを提案する。
半教師付き学習フレームワークを使用することで、S3Cは人間に注釈のない説明なしに膨大な量のサンプルの恩恵を受けることができる。
多数の自動測定と人的評価がいずれも本手法の有効性を示している。
一方、このフレームワークは2つのVQA-NLEデータセット上で、最先端のパフォーマンスを新たに達成している。
関連論文リスト
- Towards More Faithful Natural Language Explanation Using Multi-Level
Contrastive Learning in VQA [7.141288053123662]
視覚的質問応答(VQA-NLE)における自然言語の説明は,ブラックボックスシステムに対するユーザの信頼を高めるために,自然言語文を生成することによって,モデルの意思決定プロセスを説明することを目的としている。
既存のポストホックな説明は、人間の論理的推論と常に一致している訳ではなく、1) 誘惑的不満足な説明は、生成した説明が論理的に答えに繋がらないこと、2) 現実的不整合性、2) 画像上の事実を考慮せずに解答の反事実的説明を偽示すること、3) 意味的摂動の過敏性、モデルは、小さな摂動によって引き起こされる意味的変化を認識できないこと、である。
論文 参考訳(メタデータ) (2023-12-21T05:51:55Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - ZARA: Improving Few-Shot Self-Rationalization for Small Language Models [29.755148112827502]
本稿では,自己学習のための擬似並列データを自動的に構築するためのZARA(Zero-shot Augmentation of Rationale-Answer pairs)を提案する。
ZARAは、タスク精度と説明基準の両方において、FEBベンチマーク上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2023-05-12T10:07:12Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。