論文の概要: Robust Visual Question Answering: Datasets, Methods, and Future
Challenges
- arxiv url: http://arxiv.org/abs/2307.11471v1
- Date: Fri, 21 Jul 2023 10:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 12:51:30.051518
- Title: Robust Visual Question Answering: Datasets, Methods, and Future
Challenges
- Title(参考訳): 頑健なビジュアル質問回答:データセット,メソッド,今後の課題
- Authors: Jie Ma, Pinghui Wang, Dechen Kong, Zewei Wang, Jun Liu, Hongbin Pei,
Junzhou Zhao
- Abstract要約: 視覚的な質問応答には、画像と自然言語の質問に与えられた正確な自然言語の回答を提供するシステムが必要である。
従来の一般的なVQA手法は、答えを予測する前に画像のグラウンド化など適切な振る舞いを学ぶのではなく、トレーニングデータに存在するバイアスを記憶する傾向がある。
VQAのロバスト性を評価するために,様々なデータセットとデバイアス法が提案されている。
- 参考スコア(独自算出の注目度): 23.98725144879123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering requires a system to provide an accurate natural
language answer given an image and a natural language question. However, it is
widely recognized that previous generic VQA methods often exhibit a tendency to
memorize biases present in the training data rather than learning proper
behaviors, such as grounding images before predicting answers. Therefore, these
methods usually achieve high in-distribution but poor out-of-distribution
performance. In recent years, various datasets and debiasing methods have been
proposed to evaluate and enhance the VQA robustness, respectively. This paper
provides the first comprehensive survey focused on this emerging fashion.
Specifically, we first provide an overview of the development process of
datasets from in-distribution and out-of-distribution perspectives. Then, we
examine the evaluation metrics employed by these datasets. Thirdly, we propose
a typology that presents the development process, similarities and differences,
robustness comparison, and technical features of existing debiasing methods.
Furthermore, we analyze and discuss the robustness of representative
vision-and-language pre-training models on VQA. Finally, through a thorough
review of the available literature and experimental analysis, we discuss the
key areas for future research from various viewpoints.
- Abstract(参考訳): 視覚質問応答は、画像と自然言語質問を与えられた正確な自然言語応答を提供するシステムが必要である。
しかし,従来の一般的なVQA手法では,解答前の画像のグラウンド化など,適切な行動を学習するよりも,トレーニングデータに存在するバイアスを記憶する傾向があることが広く認識されている。
したがって、これらの手法は通常、分配性能は高いが、分配性能は低い。
近年,VQAのロバスト性を評価するために,様々なデータセットとデバイアス法が提案されている。
本稿は,この新興ファッションに焦点をあてた初の総合調査を行う。
具体的には、まず、分布内および分布外の観点からデータセットの開発プロセスの概要を示す。
次に,これらのデータセットを用いた評価指標について検討する。
第3に, 開発プロセス, 類似性, 差異, 堅牢性比較, および既存のデバイアス手法の技術的特徴を提示するタイポロジーを提案する。
さらに,VQA上での視覚・言語事前学習モデルのロバスト性を分析し,議論する。
最後に、利用可能な文献の徹底的なレビューと実験分析を通じて、様々な観点から今後の研究の要点について論じる。
関連論文リスト
- Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - How to Determine the Most Powerful Pre-trained Language Model without
Brute Force Fine-tuning? An Empirical Survey [23.757740341834126]
その結果,H-Scoreは効率性や効率性に優れることがわかった。
また、トレーニングの詳細、テキスト生成への適用性、今後の方向性に光を当てる特定の指標との整合性といった難しさについても概説する。
論文 参考訳(メタデータ) (2023-12-08T01:17:28Z) - The curse of language biases in remote sensing VQA: the role of spatial
attributes, language diversity, and the need for clear evaluation [32.7348470366509]
RSVQAの目的は、リモートセンシング画像に関する自然言語で定式化された質問に答えることである。
言語バイアスの問題はしばしばリモートセンシングコミュニティで見過ごされている。
本研究の目的は,RSVQAにおける言語バイアスの問題を3重解析戦略を用いて強調することである。
論文 参考訳(メタデータ) (2023-11-28T13:45:15Z) - Out-of-Distribution Generalization in Text Classification: Past,
Present, and Future [30.581612475530974]
自然言語処理(NLP)における機械学習(ML)システムは、アウト・オブ・ディストリビューション(OOD)データへの一般化において重大な課題に直面している。
このことは、NLPモデルの堅牢性とその高い精度に関する重要な疑問を提起する。
本稿では,近年の進歩,方法,評価について概観する。
論文 参考訳(メタデータ) (2023-05-23T14:26:11Z) - An Empirical Study on the Language Modal in Visual Question Answering [31.692905677913068]
ドメイン内エクスペリエンスからアウト・オブ・ディストリビューションデータへの一般化は、AIドメインにおいて最重要事項である。
本稿では,VQAの性能に及ぼす言語モダリティの影響について,新たな知見を提供する。
論文 参考訳(メタデータ) (2023-05-17T11:56:40Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - Language bias in Visual Question Answering: A Survey and Taxonomy [0.0]
われわれはこの分野の総合的なレビューと分析を初めて実施する。
既存の手法を視覚情報の改善を含む3つのカテゴリに分類する。
言語バイアスの原因は明らかにされ、分類される。
論文 参考訳(メタデータ) (2021-11-16T15:01:24Z) - Introspective Distillation for Robust Question Answering [70.18644911309468]
質問応答(QA)モデルは、例えば、視覚的QAに先行する言語や、読解における位置バイアスなど、データのバイアスを利用するためによく知られている。
近年の脱バイアス法は, 分配内(ID)性能のかなりの犠牲を伴い, 分配外(OOD)の一般化性を良好に達成している。
IntroD(Introspective Distillation)と呼ばれる新しい脱湿法を提案し,両者のQAを最大限に活用する。
論文 参考訳(メタデータ) (2021-11-01T15:30:15Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。