論文の概要: Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View
- arxiv url: http://arxiv.org/abs/2010.16010v4
- Date: Tue, 14 Dec 2021 16:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 16:53:46.565637
- Title: Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View
- Title(参考訳): 損失再スケーリングVQA: クラス不均衡の観点からのLanguagePrior問題の再検討
- Authors: Yangyang Guo, Liqiang Nie, Zhiyong Cheng, Qi Tian, Min Zhang
- Abstract要約: 本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
- 参考スコア(独自算出の注目度): 129.392671317356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have pointed out that many well-developed Visual Question
Answering (VQA) models are heavily affected by the language prior problem,
which refers to making predictions based on the co-occurrence pattern between
textual questions and answers instead of reasoning visual contents. To tackle
it, most existing methods focus on enhancing visual feature learning to reduce
this superficial textual shortcut influence on VQA model decisions. However,
limited effort has been devoted to providing an explicit interpretation for its
inherent cause. It thus lacks a good guidance for the research community to
move forward in a purposeful way, resulting in model construction perplexity in
overcoming this non-trivial problem. In this paper, we propose to interpret the
language prior problem in VQA from a class-imbalance view. Concretely, we
design a novel interpretation scheme whereby the loss of mis-predicted frequent
and sparse answers of the same question type is distinctly exhibited during the
late training phase. It explicitly reveals why the VQA model tends to produce a
frequent yet obviously wrong answer, to a given question whose right answer is
sparse in the training set. Based upon this observation, we further develop a
novel loss re-scaling approach to assign different weights to each answer based
on the training data statistics for computing the final loss. We apply our
approach into three baselines and the experimental results on two VQA-CP
benchmark datasets evidently demonstrate its effectiveness. In addition, we
also justify the validity of the class imbalance interpretation scheme on other
computer vision tasks, such as face recognition and image classification.
- Abstract(参考訳): 近年の研究では、よく開発された視覚質問応答(vqa)モデルの多くは、視覚コンテンツの推論ではなく、テキスト質問と回答の共起パターンに基づいて予測を行うことを指す言語先行問題の影響を強く受けていると指摘している。
既存のほとんどの手法は、VQAモデル決定に対する表面的テキストショートカットの影響を減らすために、視覚的特徴学習の強化に重点を置いている。
しかし、その本質的な原因に対する明確な解釈を提供することに限定的な努力が費やされてきた。
したがって、研究コミュニティが目的のある方法で前進する良いガイダンスが欠如しており、この非自明な問題を克服するモデル構築の複雑さを招いている。
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
具体的には,学習後期において,誤予測された頻繁かつ疎解の損失が,同じ質問型の解答を明瞭に表現する新しい解釈手法を設計する。
トレーニングセットで正しい答えが不足している特定の質問に対して、VQAモデルが頻繁に、そして明らかに間違った回答をもたらす傾向がある理由を明確に示します。
そこで本研究では,最終損失を計算するためのトレーニングデータ統計に基づいて,各回答に異なる重みを割り当てる新たな損失再スケーリング手法を提案する。
提案手法を3つのベースラインに適用し、2つのVQA-CPベンチマークデータセットに対する実験結果から,その効果が明らかとなった。
さらに,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
関連論文リスト
- Unveiling Cross Modality Bias in Visual Question Answering: A Causal
View with Possible Worlds VQA [111.41719652451701]
まず、言語と視覚のバイアスを同時に引き起こす相反する効果をモデル化する。
次に、この効果の影響を除去するための反実的推論を提案する。
提案手法は,VQA-CP v2データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-31T09:02:58Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z) - Continual VQA for Disaster Response Systems [0.0]
Visual Question Answering (VQA)は、入力画像から質問に答えることを含むマルチモーダルタスクである。
主な課題は、影響地域の評価におけるラベルの生成による遅延である。
トレーニング済みのCLIPモデルをデプロイし、ビジュアルイメージペアに基づいてトレーニングする。
我々は、FloodNetデータセットの過去の最先端結果を上回った。
論文 参考訳(メタデータ) (2022-09-21T12:45:51Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss [73.65872901950135]
本研究は,特徴空間学習の観点から,言語先行問題に挑戦する試みである。
適応したマージンコサイン損失は、頻繁でスパースな回答特徴空間を区別するように設計されている。
実験の結果, 適応したマージンコサイン損失はベースラインモデルを大きく向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-05T11:41:38Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。