論文の概要: Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions
- arxiv url: http://arxiv.org/abs/2304.03147v1
- Date: Thu, 6 Apr 2023 15:32:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 13:54:21.409134
- Title: Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions
- Title(参考訳): 基本質問の連鎖によるロバストネス分析と文脈学習による視覚的質問応答モデルの改善
- Authors: Jia-Hong Huang, Modar Alfadly, Bernard Ghanem, Marcel Worring
- Abstract要約: 本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
- 参考スコア(独自算出の注目度): 70.70725223310401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks have been critical in the task of Visual Question
Answering (VQA), with research traditionally focused on improving model
accuracy. Recently, however, there has been a trend towards evaluating the
robustness of these models against adversarial attacks. This involves assessing
the accuracy of VQA models under increasing levels of noise in the input, which
can target either the image or the proposed query question, dubbed the main
question. However, there is currently a lack of proper analysis of this aspect
of VQA. This work proposes a new method that utilizes semantically related
questions, referred to as basic questions, acting as noise to evaluate the
robustness of VQA models. It is hypothesized that as the similarity of a basic
question to the main question decreases, the level of noise increases. To
generate a reasonable noise level for a given main question, a pool of basic
questions is ranked based on their similarity to the main question, and this
ranking problem is cast as a LASSO optimization problem. Additionally, this
work proposes a novel robustness measure, R_score, and two basic question
datasets to standardize the analysis of VQA model robustness. The experimental
results demonstrate that the proposed evaluation method effectively analyzes
the robustness of VQA models. Moreover, the experiments show that in-context
learning with a chain of basic questions can enhance model accuracy.
- Abstract(参考訳): ディープニューラルネットワークは、伝統的にモデルの正確性を改善することに焦点を当てたVisual Question Answering(VQA)のタスクにおいて重要な存在である。
しかし、近年は敵攻撃に対してこれらのモデルの堅牢性を評価する傾向にある。
これは、入力のノイズレベルが増大する下でVQAモデルの精度を評価することを含み、主な質問と呼ばれる画像または提案されたクエリー質問をターゲットにすることができる。
しかしながら、現在VQAのこの側面について適切な分析が行われていない。
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
基本質問と主質問との類似度が減少すると雑音のレベルが増加するという仮説が立てられている。
与えられた主質問に対して合理的なノイズレベルを生成するために、主質問と類似度に基づいて基本質問のプールをランク付けし、このランキング問題をラッソ最適化問題としてキャストする。
さらに、新しいロバストネス尺度R_scoreと、VQAモデルロバストネスの分析を標準化するための2つの基本的な質問データセットを提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
さらに,基本的な質問の連鎖による文脈内学習により,モデルの正確性が向上することを示す。
関連論文リスト
- QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z) - Synthetic Question Value Estimation for Domain Adaptation of Question
Answering [31.003053719921628]
対象領域のQA性能を改善するために合成質問の有用性を直接推定する質問値推定器(QVE)をトレーニングする新しいアイデアを導入する。
このような質問を使用することで、ターゲットドメイン上のヒューマンアノテーションの約15%しか、完全に教師されたベースラインに匹敵するパフォーマンスを達成できません。
論文 参考訳(メタデータ) (2022-03-16T20:22:31Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - SOrT-ing VQA Models : Contrastive Gradient Learning for Improved
Consistency [64.67155167618894]
本稿では、画像上の推論問題と最も強く相関する質問を決定するために、勾配に基づく解釈可能性アプローチを提案する。
次に,サブクエスト指向チューニング (SOrT) と呼ばれる,相対的勾配学習に基づくアプローチを提案する。
我々は、SOrTが既存のベースラインよりも最大6.5%のモデルの一貫性を向上し、また、視覚的グラウンド化を改善していることを示す。
論文 参考訳(メタデータ) (2020-10-20T05:15:48Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。