論文の概要: Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual
Reasoning
- arxiv url: http://arxiv.org/abs/2212.00259v1
- Date: Thu, 1 Dec 2022 03:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 14:54:48.663429
- Title: Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual
Reasoning
- Title(参考訳): super-clevr:ビジュアル推論におけるドメインロバストネスを診断する仮想ベンチマーク
- Authors: Zhuowan Li (1), Xingrui Wang (2), Elias Stengel-Eskin (1), Adam
Kortylewski (3 and 4), Wufei Ma (1), Benjamin Van Durme (1), Alan Yuille (1)
((1) Johns Hopkins University, (2) University of Southern California, (3) Max
Planck Institute for Informatics, (4) University of Freiburg)
- Abstract要約: VQAドメインシフトの異なる要因を分離可能な仮想ベンチマークであるSuper-CLEVRを導入する。
視覚的複雑性、質問冗長性、概念分布、概念構成性という4つの要因が考慮されている。
制御されたデータを用いて,テストデータがトレーニングデータと異なる状況下で,Super-CLEVRによりVQAメソッドをテストすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Answering (VQA) models often perform poorly on
out-of-distribution data and struggle on domain generalization. Due to the
multi-modal nature of this task, multiple factors of variation are intertwined,
making generalization difficult to analyze. This motivates us to introduce a
virtual benchmark, Super-CLEVR, where different factors in VQA domain shifts
can be isolated in order that their effects can be studied independently. Four
factors are considered: visual complexity, question redundancy, concept
distribution and concept compositionality. With controllably generated data,
Super-CLEVR enables us to test VQA methods in situations where the test data
differs from the training data along each of these axes. We study four existing
methods, including two neural symbolic methods NSCL and NSVQA, and two
non-symbolic methods FiLM and mDETR; and our proposed method, probabilistic
NSVQA (P-NSVQA), which extends NSVQA with uncertainty reasoning. P-NSVQA
outperforms other methods on three of the four domain shift factors. Our
results suggest that disentangling reasoning and perception, combined with
probabilistic uncertainty, form a strong VQA model that is more robust to
domain shifts. The dataset and code are released at
https://github.com/Lizw14/Super-CLEVR.
- Abstract(参考訳): ビジュアル質問応答(vqa)モデルは、しばしば分散データで性能が悪く、ドメインの一般化に苦しむ。
このタスクのマルチモーダル性のため、変動の複数の要因が絡み合っており、一般化は分析が困難である。
これにより、VQAドメインシフトの異なる要因を分離して、その効果を独立して研究できる仮想ベンチマークであるSuper-CLEVRを導入することができる。
視覚の複雑さ、質問の冗長性、概念分布、概念構成性である。
制御されたデータにより、テストデータが各軸に沿ったトレーニングデータと異なる状況下で、Super-CLEVRはVQAメソッドをテストすることができる。
2つのニューラルシンボリックメソッドNSCLとNSVQAと2つの非シンボリックメソッドFiLMとmDETRを含む4つの既存手法と、不確実な推論でNSVQAを拡張する確率的NSVQA(P-NSVQA)を提案する。
P-NSVQAは4つの領域シフト因子のうち3つで他の手法より優れている。
この結果から,確率的不確実性と相まって,ドメインシフトに対してより堅牢な強いVQAモデルを形成することが示唆された。
データセットとコードはhttps://github.com/lizw14/super-clevrでリリースされる。
関連論文リスト
- Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering [19.351516992903697]
EmphMixture of Rationales (MoR) は、ゼロショット視覚的質問応答のための複数の論理を混合する新しいマルチモーダル推論手法である。
MoRはNLVR2では12.43%の精度向上、OKVQA-Sでは2.45%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-06-03T15:04:47Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。
本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization [15.554325659263316]
視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。
既存のVQA用の領域一般化データセットは、テキストシフトに一方的な焦点をあてている。
VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。
論文 参考訳(メタデータ) (2023-11-01T19:43:56Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
RSVQAタスクでは、各画像の難易度が明らかに異なる。
言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-05-06T11:37:00Z) - Domain-robust VQA with diverse datasets and methods but no target labels [34.331228652254566]
VQAのドメイン適応は、さらなる複雑さのためにオブジェクト認識の適応とは異なる。
これらの課題に取り組むために、まず一般的なVQAデータセット間のドメインシフトを定量化します。
また,画像領域と質問領域の合成シフトを別々に構築する。
論文 参考訳(メタデータ) (2021-03-29T22:24:50Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - Regularizing Attention Networks for Anomaly Detection in Visual Question
Answering [10.971443035470488]
最先端VQAモデルのロバスト性を5つの異なる異常に評価する。
入力画像と質問間の推論の信頼度を利用した注意に基づく手法を提案する。
注意ネットワークの最大エントロピー正規化は、注意に基づく異常検出を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-09-21T17:47:49Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。