論文の概要: Visual Robustness Benchmark for Visual Question Answering (VQA)
- arxiv url: http://arxiv.org/abs/2407.03386v1
- Date: Wed, 3 Jul 2024 08:35:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 20:20:26.145318
- Title: Visual Robustness Benchmark for Visual Question Answering (VQA)
- Title(参考訳): Visual Robustness Benchmark for Visual Question Answering (VQA)
- Authors: Md Farhan Ishmam, Ishmam Tashdeed, Talukder Asir Saadat, Md Hamjajul Ashmafee, Dr. Abu Raihan Mostofa Kamal, Dr. Md. Azam Hossain,
- Abstract要約: 213,000枚の画像からなる最初の大規模ベンチマークを提案する。
複数のVQAモデルの視覚的堅牢性に挑戦し、現実的な視覚的腐敗の強さを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can Visual Question Answering (VQA) systems perform just as well when deployed in the real world? Or are they susceptible to realistic corruption effects e.g. image blur, which can be detrimental in sensitive applications, such as medical VQA? While linguistic or textual robustness has been thoroughly explored in the VQA literature, there has yet to be any significant work on the visual robustness of VQA models. We propose the first large-scale benchmark comprising 213,000 augmented images, challenging the visual robustness of multiple VQA models and assessing the strength of realistic visual corruptions. Additionally, we have designed several robustness evaluation metrics that can be aggregated into a unified metric and tailored to fit a variety of use cases. Our experiments reveal several insights into the relationships between model size, performance, and robustness with the visual corruptions. Our benchmark highlights the need for a balanced approach in model development that considers model performance without compromising the robustness.
- Abstract(参考訳): VQA(Visual Question Answering)システムは、実世界でも同じように動作するだろうか?
あるいは、医療用VQAのようなセンシティブなアプリケーションでは有害な、g画像のぼかしのような現実的な汚職の影響を受けやすいのか?
言語的あるいはテキスト的堅牢性はVQAの文献で徹底的に研究されているが、VQAモデルの視覚的堅牢性についてはまだ大きな研究がなされていない。
本稿では,213,000個の拡張画像からなる最初の大規模ベンチマークを提案し,複数のVQAモデルの視覚的堅牢性に挑戦し,現実的な視覚的腐敗の強さを評価する。
さらに、統一されたメトリクスに集約され、さまざまなユースケースに適合するように調整された、堅牢性評価メトリクスを設計しました。
我々の実験は、モデルのサイズ、性能、そして視覚的腐敗との堅牢性との関係に関するいくつかの洞察を明らかにした。
私たちのベンチマークでは、堅牢性を損なうことなくモデルパフォーマンスを考慮したモデル開発におけるバランスのとれたアプローチの必要性を強調しています。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context
in Visual Question Answering [20.35687327831644]
本稿では,視覚質問応答モデル(VQA)の頑健性について,新しい視点から考察する。
SwapMixは、無関係なコンテキストオブジェクトの機能とデータセットの他のオブジェクトの機能とを交換することで、視覚的コンテキストを乱します。
完全視力でモデルをトレーニングし、コンテキストの過度依存が視覚表現の品質に大きく依存していることに気付きます。
論文 参考訳(メタデータ) (2022-04-05T15:32:25Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Regularizing Attention Networks for Anomaly Detection in Visual Question
Answering [10.971443035470488]
最先端VQAモデルのロバスト性を5つの異なる異常に評価する。
入力画像と質問間の推論の信頼度を利用した注意に基づく手法を提案する。
注意ネットワークの最大エントロピー正規化は、注意に基づく異常検出を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-09-21T17:47:49Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。