論文の概要: Regularizing Attention Networks for Anomaly Detection in Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2009.10054v3
- Date: Mon, 11 Apr 2022 16:33:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:22:47.389133
- Title: Regularizing Attention Networks for Anomaly Detection in Visual Question
Answering
- Title(参考訳): 視覚質問応答における異常検出のための正規化注意ネットワーク
- Authors: Doyup Lee, Yeongjae Cheon, Wook-Shin Han
- Abstract要約: 最先端VQAモデルのロバスト性を5つの異なる異常に評価する。
入力画像と質問間の推論の信頼度を利用した注意に基づく手法を提案する。
注意ネットワークの最大エントロピー正規化は、注意に基づく異常検出を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 10.971443035470488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For stability and reliability of real-world applications, the robustness of
DNNs in unimodal tasks has been evaluated. However, few studies consider
abnormal situations that a visual question answering (VQA) model might
encounter at test time after deployment in the real-world. In this study, we
evaluate the robustness of state-of-the-art VQA models to five different
anomalies, including worst-case scenarios, the most frequent scenarios, and the
current limitation of VQA models. Different from the results in unimodal tasks,
the maximum confidence of answers in VQA models cannot detect anomalous inputs,
and post-training of the outputs, such as outlier exposure, is ineffective for
VQA models. Thus, we propose an attention-based method, which uses confidence
of reasoning between input images and questions and shows much more promising
results than the previous methods in unimodal tasks. In addition, we show that
a maximum entropy regularization of attention networks can significantly
improve the attention-based anomaly detection of the VQA models. Thanks to the
simplicity, attention-based anomaly detection and the regularization are
model-agnostic methods, which can be used for various cross-modal attentions in
the state-of-the-art VQA models. The results imply that cross-modal attention
in VQA is important to improve not only VQA accuracy, but also the robustness
to various anomalies.
- Abstract(参考訳): 実世界のアプリケーションの安定性と信頼性について,一元的タスクにおけるDNNの堅牢性を評価した。
しかしながら,視覚的質問応答(VQA)モデルが実世界への展開後にテスト時に発生するという異常な状況を考える研究はほとんどない。
本研究では,最先端のVQAモデルのロバスト性を,最悪のシナリオ,最も頻繁なシナリオ,VQAモデルの現在の制限を含む5種類の異常に評価する。
単調なタスクの結果と異なり、VQAモデルにおける回答の最大信頼度は異常な入力を検出できず、アウトレイラ露光などの出力のポストトレーニングはVQAモデルでは効果がない。
そこで本研究では,入力画像と質問の間の推論の信頼度を利用し,従来手法よりも有望な結果を示す注意に基づく手法を提案する。
さらに、注意ネットワークの最大エントロピー正規化により、VQAモデルの注意に基づく異常検出を大幅に改善できることを示す。
単純さのおかげで、注意に基づく異常検出と正規化はモデルに依存しない手法であり、最先端のVQAモデルにおける様々なモーダルな注意に使用できる。
その結果,VQAにおける相互注意は,VQAの精度だけでなく,種々の異常に対する堅牢性の向上にも重要であることが示された。
関連論文リスト
- Visual Robustness Benchmark for Visual Question Answering (VQA) [0.08246494848934446]
213,000枚の画像からなる最初の大規模ベンチマークを提案する。
複数のVQAモデルの視覚的堅牢性に挑戦し、現実的な視覚的腐敗の強さを評価する。
論文 参考訳(メタデータ) (2024-07-03T08:35:03Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。