論文の概要: Overcoming Language Bias in Remote Sensing Visual Question Answering via
Adversarial Training
- arxiv url: http://arxiv.org/abs/2306.00483v1
- Date: Thu, 1 Jun 2023 09:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 17:24:36.458421
- Title: Overcoming Language Bias in Remote Sensing Visual Question Answering via
Adversarial Training
- Title(参考訳): 遠隔センシングによる視覚質問応答における言語バイアスの克服
- Authors: Zhenghang Yuan, Lichao Mou, Xiao Xiang Zhu
- Abstract要約: VQA(Visual Question Answering)モデルは、一般的に言語バイアスの課題に直面します。
リモートセンシングデータに対するVQAの言語バイアスを低減するための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.473676537463607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Visual Question Answering (VQA) system offers a user-friendly interface
and enables human-computer interaction. However, VQA models commonly face the
challenge of language bias, resulting from the learned superficial correlation
between questions and answers. To address this issue, in this study, we present
a novel framework to reduce the language bias of the VQA for remote sensing
data (RSVQA). Specifically, we add an adversarial branch to the original VQA
framework. Based on the adversarial branch, we introduce two regularizers to
constrain the training process against language bias. Furthermore, to evaluate
the performance in terms of language bias, we propose a new metric that
combines standard accuracy with the performance drop when incorporating
question and random image information. Experimental results demonstrate the
effectiveness of our method. We believe that our method can shed light on
future work for reducing language bias on the RSVQA task.
- Abstract(参考訳): Visual Question Answering (VQA) システムはユーザフレンドリーなインタフェースを提供し、人間とコンピュータのインタラクションを可能にする。
しかしながら、VQAモデルは一般的に言語バイアスの課題に直面しており、これは質問と回答の間の表面的相関が学習された結果である。
そこで本研究では,リモートセンシングデータ(RSVQA)におけるVQAの言語バイアスを低減するための新しい枠組みを提案する。
具体的には、元のVQAフレームワークに逆のブランチを追加します。
逆数分岐に基づいて、学習過程を言語バイアスに制約する2つの正規化器を導入する。
さらに,言語バイアスの観点から性能を評価するために,質問情報とランダム画像情報を組み合わせた場合の標準精度と性能低下を組み合わせた新しい指標を提案する。
実験の結果,本手法の有効性が示された。
RSVQAタスクにおける言語バイアスを軽減するために,我々の手法は今後の作業に光を当てることができると考えている。
関連論文リスト
- Large Vision-Language Models for Remote Sensing Visual Question Answering [0.0]
リモートセンシング視覚質問回答(RSVQA)は、複雑な衛星画像の自然言語質問への答えを解釈する難しいタスクである。
伝統的なアプローチは、しばしば別々の視覚特徴抽出器と言語処理モデルに依存しており、計算集約的で、オープンエンドの質問を扱う能力に制限がある。
RSVQAプロセスの合理化にLVLM(Large Vision-Language Model)を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-16T18:32:38Z) - The curse of language biases in remote sensing VQA: the role of spatial
attributes, language diversity, and the need for clear evaluation [32.7348470366509]
RSVQAの目的は、リモートセンシング画像に関する自然言語で定式化された質問に答えることである。
言語バイアスの問題はしばしばリモートセンシングコミュニティで見過ごされている。
本研究の目的は,RSVQAにおける言語バイアスの問題を3重解析戦略を用いて強調することである。
論文 参考訳(メタデータ) (2023-11-28T13:45:15Z) - Unveiling Cross Modality Bias in Visual Question Answering: A Causal
View with Possible Worlds VQA [111.41719652451701]
まず、言語と視覚のバイアスを同時に引き起こす相反する効果をモデル化する。
次に、この効果の影響を除去するための反実的推論を提案する。
提案手法は,VQA-CP v2データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-31T09:02:58Z) - SC-ML: Self-supervised Counterfactual Metric Learning for Debiased
Visual Question Answering [10.749155815447127]
画像特徴に着目した自己教師付き対実測位学習法(SC-ML)を提案する。
SC-MLは、質問関連視覚特徴を適応的に選択し、質問関連視覚特徴の負の影響を低減できる。
論文 参考訳(メタデータ) (2023-04-04T09:05:11Z) - Overcoming Language Priors in Visual Question Answering via
Distinguishing Superficially Similar Instances [17.637150597493463]
本稿では,VQAモデルに対して,仮想的に類似したインスタンスの区別を明示的に促す新しいトレーニングフレームワークを提案する。
我々は、解空間におけるインスタンスとそれに対応するモジュール間の距離を増やすために、提案された区別モジュールを利用する。
実験の結果,VQA-CP v2の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-09-18T10:30:44Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss [73.65872901950135]
本研究は,特徴空間学習の観点から,言語先行問題に挑戦する試みである。
適応したマージンコサイン損失は、頻繁でスパースな回答特徴空間を区別するように設計されている。
実験の結果, 適応したマージンコサイン損失はベースラインモデルを大きく向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-05T11:41:38Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Counterfactual VQA: A Cause-Effect Look at Language Bias [117.84189187160005]
VQAモデルは、ショートカットとして言語バイアスに依存し、視覚と言語の両方からマルチモーダルな知識を十分に学ばない傾向にある。
本稿では,質問に対する直接的な因果的影響として,言語バイアスを捉えることのできる,新たな反事実推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-08T01:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。