論文の概要: Language bias in Visual Question Answering: A Survey and Taxonomy
- arxiv url: http://arxiv.org/abs/2111.08531v1
- Date: Tue, 16 Nov 2021 15:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 13:28:13.090510
- Title: Language bias in Visual Question Answering: A Survey and Taxonomy
- Title(参考訳): 視覚質問応答における言語バイアス:調査と分類
- Authors: Desen Yuan
- Abstract要約: われわれはこの分野の総合的なレビューと分析を初めて実施する。
既存の手法を視覚情報の改善を含む3つのカテゴリに分類する。
言語バイアスの原因は明らかにされ、分類される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering (VQA) is a challenging task, which has attracted
more and more attention in the field of computer vision and natural language
processing. However, the current visual question answering has the problem of
language bias, which reduces the robustness of the model and has an adverse
impact on the practical application of visual question answering. In this
paper, we conduct a comprehensive review and analysis of this field for the
first time, and classify the existing methods according to three categories,
including enhancing visual information, weakening language priors, data
enhancement and training strategies. At the same time, the relevant
representative methods are introduced, summarized and analyzed in turn. The
causes of language bias are revealed and classified. Secondly, this paper
introduces the datasets mainly used for testing, and reports the experimental
results of various existing methods. Finally, we discuss the possible future
research directions in this field.
- Abstract(参考訳): 視覚的質問応答(VQA)は難しい課題であり、コンピュータビジョンや自然言語処理の分野でますます注目を集めている。
しかし、現在の視覚的質問応答は言語バイアスの問題があり、それによってモデルの堅牢性が低下し、視覚的質問応答の実践的応用に悪影響を及ぼす。
本稿では,この分野の包括的レビューと分析を初めて行い,視覚情報の向上,言語優先順位の弱化,データ強化,トレーニング戦略など,既存の手法を3つのカテゴリに分類する。
同時に、関連する代表的な方法を紹介し、要約し、分析する。
言語バイアスの原因は明らかにされ、分類される。
次に,主にテストに使用されるデータセットを紹介し,既存手法の実験結果を報告する。
最後に,本分野における今後の研究の方向性について論じる。
関連論文リスト
- Natural Language Generation for Visualizations: State of the Art, Challenges and Future Directions [7.064953237013352]
可視化のためのテキスト生成に焦点を当てた研究に焦点をあてる。
提案手法のNLG問題と設計空間を特徴付けるために、5つのWh-questionsを示す。
この5つのWh-questionsに基づく調査論文のソリューションを分類する。
論文 参考訳(メタデータ) (2024-09-29T15:53:18Z) - Robust Visual Question Answering: Datasets, Methods, and Future
Challenges [23.59923999144776]
視覚的な質問応答には、画像と自然言語の質問に与えられた正確な自然言語の回答を提供するシステムが必要である。
従来の一般的なVQA手法は、答えを予測する前に画像のグラウンド化など適切な振る舞いを学ぶのではなく、トレーニングデータに存在するバイアスを記憶する傾向がある。
VQAのロバスト性を評価するために,様々なデータセットとデバイアス法が提案されている。
論文 参考訳(メタデータ) (2023-07-21T10:12:09Z) - Unveiling Cross Modality Bias in Visual Question Answering: A Causal
View with Possible Worlds VQA [111.41719652451701]
まず、言語と視覚のバイアスを同時に引き起こす相反する効果をモデル化する。
次に、この効果の影響を除去するための反実的推論を提案する。
提案手法は,VQA-CP v2データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-31T09:02:58Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - Visually grounded models of spoken language: A survey of datasets,
architectures and evaluation techniques [15.906959137350247]
この調査は、過去20年間の音声言語の視覚的接地モデルの進化の概要を提供する。
我々は、この研究の多くを可能にした中心的な研究課題、開発スケジュール、データセットについて論じる。
論文 参考訳(メタデータ) (2021-04-27T14:32:22Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Survey on Visual Sentiment Analysis [87.20223213370004]
本稿では、関連する出版物をレビューし、視覚知覚分析の分野の概要を概観する。
また,3つの視点から一般的な視覚知覚分析システムの設計原理について述べる。
様々なレベルの粒度と、異なる方法でイメージに対する感情に影響を与えるコンポーネントを考慮し、問題の定式化について論じる。
論文 参考訳(メタデータ) (2020-04-24T10:15:22Z) - On the General Value of Evidence, and Bilingual Scene-Text Visual
Question Answering [120.64104995052189]
本稿では,2つの言語で表現された質問を含む,この問題に対処するための一歩を踏み出したデータセットを提案する。
推論を測定することは、偶然に正しい答えを罰することによって、直接一般化を促進する。
データセットはVQA問題のシーンテキストバージョンを反映しており、推論評価は参照表現課題のテキストベースのバージョンと見なすことができる。
論文 参考訳(メタデータ) (2020-02-24T13:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。