論文の概要: Uncovering the Full Potential of Visual Grounding Methods in VQA
- arxiv url: http://arxiv.org/abs/2401.07803v2
- Date: Thu, 15 Feb 2024 14:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 20:51:33.171000
- Title: Uncovering the Full Potential of Visual Grounding Methods in VQA
- Title(参考訳): VQAにおける視覚的接地法の全可能性
- Authors: Daniel Reich, Tanja Schultz
- Abstract要約: VG-methodsは、モデルが質問関連視覚情報に依存することを強化することにより、VQA(Visual Question Answering)の性能を改善する。
VG-methodsのトレーニングと試験は、主に不正確なデータを用いて行われ、それらの潜在的な利益の適切な評価を妨げている。
実験の結果,評価条件が修正された場合,これらの手法はより効果的であることが示唆された。
- 参考スコア(独自算出の注目度): 23.600816131032936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Grounding (VG) methods in Visual Question Answering (VQA) attempt to
improve VQA performance by strengthening a model's reliance on
question-relevant visual information. The presence of such relevant information
in the visual input is typically assumed in training and testing. This
assumption, however, is inherently flawed when dealing with imperfect image
representations common in large-scale VQA, where the information carried by
visual features frequently deviates from expected ground-truth contents. As a
result, training and testing of VG-methods is performed with largely inaccurate
data, which obstructs proper assessment of their potential benefits. In this
study, we demonstrate that current evaluation schemes for VG-methods are
problematic due to the flawed assumption of availability of relevant visual
information. Our experiments show that these methods can be much more effective
when evaluation conditions are corrected. Code is provided on GitHub.
- Abstract(参考訳): VQA(Visual Question Answering)における視覚的グラウンドリング(VG)手法は、モデルが質問関連視覚情報に依存することを強化することにより、VQAの性能を向上させる。
視覚入力におけるそのような関連情報の存在は、通常、トレーニングやテストにおいて仮定される。
しかし、この仮定は、大規模なVQAで共通する不完全な画像表現を扱う際には本質的に欠陥があり、視覚的特徴によってもたらされる情報は、期待される地味コンテンツからしばしば逸脱する。
結果として、vg-methodsのトレーニングとテストは、ほとんど不正確なデータで行われ、その潜在的なメリットの適切な評価が妨げられる。
本研究では,vg手法に対する現在の評価手法が,関連する視覚情報の可利用性に欠陥があるため問題となっていることを示す。
実験の結果, 評価条件が修正された場合, より効果的であることが判明した。
コードはGitHubで提供されている。
関連論文リスト
- Visual Question Answering in the Medical Domain [13.673890873313354]
本稿では,Med-VQAタスクのための小さなデータセットの問題を軽減するために,新しいコントラスト学習事前学習手法を提案する。
提案モデルでは,VQA-Med 2019テストセットで60%の精度を達成し,他の最先端のMed-VQAモデルに匹敵する結果を得た。
論文 参考訳(メタデータ) (2023-09-20T06:06:10Z) - Measuring Faithful and Plausible Visual Grounding in VQA [23.717744098159717]
VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)のメトリクスは、与えられた質問に対する回答を推測する際に、システムの画像の関連部分への依存度を測定することを目的としている。
VGの欠如は、最先端のVQAシステムに共通する問題であり、無関係な画像部品に過度に依存したり、視覚的モダリティを完全に無視したりすることができる。
本稿では,モデルa)がシーン内の質問関連オブジェクトを識別し,b)応答を生成する際の関連オブジェクトに含まれる情報に実際に依存しているかどうかを判断する新しいVGメトリクスを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:58:02Z) - Visually Grounded VQA by Lattice-based Retrieval [24.298908211088072]
VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)は、システムが質問とその回答を関連画像領域にどのように結び付けるかを記述する。
本稿では,VQAの分類パラダイムを破り,情報検索タスクの観点からVQAを考察する。
本システムは,与えられた画像のシーングラフから抽出した,重み付き非巡回グラフであるa.k.a.latticeを,質問から抽出した領域参照式と合わせて操作する。
論文 参考訳(メタデータ) (2022-11-15T12:12:08Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Consistency-preserving Visual Question Answering in Medical Imaging [2.005299372367689]
VQA(Visual Question Answering)モデルは、画像と自然言語の質問を入力として、質問に対する回答を推測する。
本稿では,課題間の関係を学習プロセスに含める新しい損失関数とそれに対応する訓練手順を提案する。
実験の結果,本手法は最先端のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-06-27T13:38:50Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - Visual Grounding Methods for VQA are Working for the Wrong Reasons! [24.84797949716142]
性能改善は、視覚的接地の改善の結果ではなく、正規化効果であることを示す。
本稿では,外部アノテーションを一切必要とせず,VQA-CPv2上での最先端性能を実現する簡易な正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-12T21:45:23Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。