論文の概要: Estimating semantic structure for the VQA answer space
- arxiv url: http://arxiv.org/abs/2006.05726v2
- Date: Thu, 8 Apr 2021 10:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-23 04:12:17.620124
- Title: Estimating semantic structure for the VQA answer space
- Title(参考訳): vqa回答空間における意味構造の推定
- Authors: Corentin Kervadec (imagine), Grigory Antipov, Moez Baccouche,
Christian Wolf (imagine)
- Abstract要約: 3つの異なるVQAモデルで一貫した改善を可能にするため、我々のアプローチは完全にモデルに依存しないことを示す。
VQAv2-CPデータセットのSOTAレベル性能について報告する。
- 参考スコア(独自算出の注目度): 6.49970685896541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since its appearance, Visual Question Answering (VQA, i.e. answering a
question posed over an image), has always been treated as a classification
problem over a set of predefined answers. Despite its convenience, this
classification approach poorly reflects the semantics of the problem limiting
the answering to a choice between independent proposals, without taking into
account the similarity between them (e.g. equally penalizing for answering cat
or German shepherd instead of dog). We address this issue by proposing (1) two
measures of proximity between VQA classes, and (2) a corresponding loss which
takes into account the estimated proximity. This significantly improves the
generalization of VQA models by reducing their language bias. In particular, we
show that our approach is completely model-agnostic since it allows consistent
improvements with three different VQA models. Finally, by combining our method
with a language bias reduction approach, we report SOTA-level performance on
the challenging VQAv2-CP dataset.
- Abstract(参考訳): 視覚的質問回答(VQA)は、その出現以来、事前に定義された一連の回答に対して、常に分類問題として扱われてきた。
その便利さにもかかわらず、この分類法は、犬の代わりに猫やドイツ人の羊飼いに等しく罰するなど)の類似性を考慮せずに、独立した提案の選択に答えることを制限する問題の意味論を反映していない。
本稿では,(1)VQAクラス間の近接性に関する2つの尺度,(2)推定された近接性を考慮した対応する損失を提案する。
これにより、VQAモデルの一般化が大幅に改善される。
特に、3つの異なるVQAモデルで一貫した改善を可能にするため、我々のアプローチは完全にモデルに依存しないことを示す。
最後に,本手法と言語バイアス低減手法を組み合わせることで,挑戦的なVQAv2-CPデータセット上でのSOTAレベルの性能を報告する。
関連論文リスト
- Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Overcoming Language Priors in Visual Question Answering via
Distinguishing Superficially Similar Instances [17.637150597493463]
本稿では,VQAモデルに対して,仮想的に類似したインスタンスの区別を明示的に促す新しいトレーニングフレームワークを提案する。
我々は、解空間におけるインスタンスとそれに対応するモジュール間の距離を増やすために、提案された区別モジュールを利用する。
実験の結果,VQA-CP v2の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-09-18T10:30:44Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss [73.65872901950135]
本研究は,特徴空間学習の観点から,言語先行問題に挑戦する試みである。
適応したマージンコサイン損失は、頻繁でスパースな回答特徴空間を区別するように設計されている。
実験の結果, 適応したマージンコサイン損失はベースラインモデルを大きく向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-05T11:41:38Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Reducing Language Biases in Visual Question Answering with
Visually-Grounded Question Encoder [12.56413718364189]
VQAのための新しいモデルに依存しない質問エンコーダVGQE(Visually-Grounded Question)を提案する。
VGQEは、質問をエンコードしながら、視覚と言語の両方のモダリティを等しく利用する。
VGQEが最近の3つのVQAモデルに与える影響を実証し、最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T05:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。