論文の概要: Learning content and context with language bias for Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2012.11134v1
- Date: Mon, 21 Dec 2020 06:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 09:55:42.166540
- Title: Learning content and context with language bias for Visual Question
Answering
- Title(参考訳): Visual Question Answeringのための言語バイアスによる内容と文脈の学習
- Authors: Chao Yang, Su Feng, Dongsheng Li, Huawei Shen, Guoqing Wang and Bin
Jiang
- Abstract要約: CCBと呼ばれる新しい学習戦略を提案し、VQAモデルが言語バイアスでContent and Contextに依存する質問に答えるように強制する。
CCBはVQA-CP v2の精度で最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 31.39505099600821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Answering (VQA) is a challenging multimodal task to answer
questions about an image. Many works concentrate on how to reduce language bias
which makes models answer questions ignoring visual content and language
context. However, reducing language bias also weakens the ability of VQA models
to learn context prior. To address this issue, we propose a novel learning
strategy named CCB, which forces VQA models to answer questions relying on
Content and Context with language Bias. Specifically, CCB establishes Content
and Context branches on top of a base VQA model and forces them to focus on
local key content and global effective context respectively. Moreover, a joint
loss function is proposed to reduce the importance of biased samples and retain
their beneficial influence on answering questions. Experiments show that CCB
outperforms the state-of-the-art methods in terms of accuracy on VQA-CP v2.
- Abstract(参考訳): VQA(Visual Question Answering)は、画像に関する疑問に答えるための課題である。
多くの作品は、モデルが視覚的なコンテンツや言語コンテキストを無視して質問に答える、言語バイアスを減らす方法に集中している。
しかし、言語バイアスを減らすことで、VQAモデルの事前学習能力も弱まる。
この問題に対処するため、我々はCCBという新しい学習戦略を提案し、VQAモデルに対して、言語バイアスによるコンテンツとコンテキストに依存した質問に答えるよう強制する。
具体的には、CCBは、基本VQAモデルの上にContentとContextのブランチを確立し、それぞれローカルキーコンテンツとグローバル有効コンテキストに集中させます。
さらに, 偏差サンプルの重要性を低減し, 解答に対する有益な影響を維持するために, 共同損失関数を提案する。
実験の結果, CCBはVQA-CP v2の精度において最先端の手法よりも優れていた。
関連論文リスト
- Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA [19.6585442152102]
本稿では,知識に基づく視覚的問合せ問題について検討し,その解を求めるためには,モデルが視覚的モダリティに根ざす必要があることを示した。
我々の研究は、複雑な質問をいくつかの単純な質問に置き換えることで、画像からより関連性の高い情報を抽出できることを示した。
論文 参考訳(メタデータ) (2024-06-27T02:19:38Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Overcoming Language Bias in Remote Sensing Visual Question Answering via
Adversarial Training [22.473676537463607]
VQA(Visual Question Answering)モデルは、一般的に言語バイアスの課題に直面します。
リモートセンシングデータに対するVQAの言語バイアスを低減するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-01T09:32:45Z) - Unveiling Cross Modality Bias in Visual Question Answering: A Causal
View with Possible Worlds VQA [111.41719652451701]
まず、言語と視覚のバイアスを同時に引き起こす相反する効果をモデル化する。
次に、この効果の影響を除去するための反実的推論を提案する。
提案手法は,VQA-CP v2データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-31T09:02:58Z) - SC-ML: Self-supervised Counterfactual Metric Learning for Debiased
Visual Question Answering [10.749155815447127]
画像特徴に着目した自己教師付き対実測位学習法(SC-ML)を提案する。
SC-MLは、質問関連視覚特徴を適応的に選択し、質問関連視覚特徴の負の影響を低減できる。
論文 参考訳(メタデータ) (2023-04-04T09:05:11Z) - AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss [73.65872901950135]
本研究は,特徴空間学習の観点から,言語先行問題に挑戦する試みである。
適応したマージンコサイン損失は、頻繁でスパースな回答特徴空間を区別するように設計されている。
実験の結果, 適応したマージンコサイン損失はベースラインモデルを大きく向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-05T11:41:38Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Counterfactual VQA: A Cause-Effect Look at Language Bias [117.84189187160005]
VQAモデルは、ショートカットとして言語バイアスに依存し、視覚と言語の両方からマルチモーダルな知識を十分に学ばない傾向にある。
本稿では,質問に対する直接的な因果的影響として,言語バイアスを捉えることのできる,新たな反事実推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-08T01:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。