論文の概要: SC-ML: Self-supervised Counterfactual Metric Learning for Debiased
Visual Question Answering
- arxiv url: http://arxiv.org/abs/2304.01647v1
- Date: Tue, 4 Apr 2023 09:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 14:25:24.078051
- Title: SC-ML: Self-supervised Counterfactual Metric Learning for Debiased
Visual Question Answering
- Title(参考訳): SC-ML:視覚障害者に対する自己指導型対数学習
- Authors: Xinyao Shu and Shiyang Yan and Xu Yang and Ziheng Wu and Zhongfeng
Chen and Zhenyu Lu
- Abstract要約: 画像特徴に着目した自己教師付き対実測位学習法(SC-ML)を提案する。
SC-MLは、質問関連視覚特徴を適応的に選択し、質問関連視覚特徴の負の影響を低減できる。
- 参考スコア(独自算出の注目度): 10.749155815447127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering (VQA) is a critical multimodal task in which an
agent must answer questions according to the visual cue. Unfortunately,
language bias is a common problem in VQA, which refers to the model generating
answers only by associating with the questions while ignoring the visual
content, resulting in biased results. We tackle the language bias problem by
proposing a self-supervised counterfactual metric learning (SC-ML) method to
focus the image features better. SC-ML can adaptively select the
question-relevant visual features to answer the question, reducing the negative
influence of question-irrelevant visual features on inferring answers. In
addition, question-irrelevant visual features can be seamlessly incorporated
into counterfactual training schemes to further boost robustness. Extensive
experiments have proved the effectiveness of our method with improved results
on the VQA-CP dataset. Our code will be made publicly available.
- Abstract(参考訳): 視覚的質問応答(VQA)は、エージェントが視覚的キューに従って質問に答えなければならない重要なマルチモーダルタスクである。
残念なことに、言語バイアスはVQAの一般的な問題であり、視覚的内容を無視しながら質問に関連付けることでのみ回答を生成するモデルを指して、バイアスのある結果をもたらす。
本稿では,自己教師付き対実測度学習(SC-ML)手法を用いて,画像特徴に着目した言語バイアス問題に取り組む。
SC-MLは、質問関連視覚特徴を適応的に選択し、質問関連視覚特徴の負の影響を低減できる。
さらに、質問に無関係な視覚機能は、ロバスト性をさらに高めるために、事実上のトレーニングスキームにシームレスに組み込むことができる。
VQA-CPデータセットを用いて,提案手法の有効性を検証した。
私たちのコードは公開されます。
関連論文リスト
- Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA [19.6585442152102]
本稿では,知識に基づく視覚的問合せ問題について検討し,その解を求めるためには,モデルが視覚的モダリティに根ざす必要があることを示した。
我々の研究は、複雑な質問をいくつかの単純な質問に置き換えることで、画像からより関連性の高い情報を抽出できることを示した。
論文 参考訳(メタデータ) (2024-06-27T02:19:38Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Weakly Supervised Visual Question Answer Generation [2.7605547688813172]
視覚情報とキャプションから手続き的に質問応答対を合成的に生成する弱教師付き手法を提案する。
我々は,VQAデータセットの総合的な実験分析を行い,BLEUスコアのSOTA手法を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2023-06-11T08:46:42Z) - Overcoming Language Bias in Remote Sensing Visual Question Answering via
Adversarial Training [22.473676537463607]
VQA(Visual Question Answering)モデルは、一般的に言語バイアスの課題に直面します。
リモートセンシングデータに対するVQAの言語バイアスを低減するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-01T09:32:45Z) - AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss [73.65872901950135]
本研究は,特徴空間学習の観点から,言語先行問題に挑戦する試みである。
適応したマージンコサイン損失は、頻繁でスパースな回答特徴空間を区別するように設計されている。
実験の結果, 適応したマージンコサイン損失はベースラインモデルを大きく向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-05T11:41:38Z) - Learning content and context with language bias for Visual Question
Answering [31.39505099600821]
CCBと呼ばれる新しい学習戦略を提案し、VQAモデルが言語バイアスでContent and Contextに依存する質問に答えるように強制する。
CCBはVQA-CP v2の精度で最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-12-21T06:22:50Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。