論文の概要: Exploring Weaknesses of VQA Models through Attribution Driven Insights
- arxiv url: http://arxiv.org/abs/2006.06637v2
- Date: Tue, 16 Jun 2020 12:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:35:24.139399
- Title: Exploring Weaknesses of VQA Models through Attribution Driven Insights
- Title(参考訳): 帰属駆動によるVQAモデルの弱さの探索
- Authors: Shaunak Halbe
- Abstract要約: 近年の研究では、視覚障害者の視覚的質問にこれらのVQAモデルを効果的に適用している。
我々は、帰属レンズ(インプットの影響)を通して人気のあるVQAモデルを分析し、価値ある洞察を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks have been successfully used for the task of Visual
Question Answering for the past few years owing to the availability of relevant
large scale datasets. However these datasets are created in artificial settings
and rarely reflect the real world scenario. Recent research effectively applies
these VQA models for answering visual questions for the blind. Despite
achieving high accuracy these models appear to be susceptible to variation in
input questions.We analyze popular VQA models through the lens of attribution
(input's influence on predictions) to gain valuable insights. Further, We use
these insights to craft adversarial attacks which inflict significant damage to
these systems with negligible change in meaning of the input questions. We
believe this will enhance development of systems more robust to the possible
variations in inputs when deployed to assist the visually impaired.
- Abstract(参考訳): 深層ニューラルネットワークは、関連する大規模データセットが利用可能であるため、過去数年間、視覚的な質問応答のタスクにうまく使われてきた。
しかし、これらのデータセットは人工的な設定で作成され、現実世界のシナリオをほとんど反映しない。
近年の研究では、視覚障害者の視覚的質問にこれらのVQAモデルを効果的に適用している。
高い精度を実現しているにもかかわらず、これらのモデルは入力質問のばらつきに影響を受けやすいように見え、人気のあるvqaモデルをアトリビューション(予測に対するインプットの影響)のレンズを通して分析し、貴重な洞察を得る。
さらに,これらの知見を応用して,入力質問の意味を無視できない変化でシステムに大きなダメージを与える敵の攻撃を仕掛ける。
これにより、視覚障害者を支援するためにデプロイされた場合の入力の変化に対して、より堅牢なシステムの開発が促進されると考えています。
関連論文リスト
- QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems [3.486120902611884]
本稿では,VQAシステムにおける様々な質問タイプの重要性と,その性能への影響について考察する。
本稿では,QTG-VQAを提案する。QTG-VQAは,質問型誘導型注意と適応学習機構を組み込んだ新しいアーキテクチャである。
論文 参考訳(メタデータ) (2024-09-14T07:42:41Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Generative Visual Question Answering [0.0]
本稿では、時間的一般化の成果を得られる高度な視覚質問回答(VQA)モデルを作成するための実行可能なアプローチについて論じる。
我々は,VQAv2およびMS-COCOデータセットの画像とキャプションを利用して,安定拡散による新しい画像を生成する新しいデータセットGenVQAを提案する。
パフォーマンス評価では、オリジナルのVQAv2データセットを反映した質問に焦点が当てられ、回答は新しいイメージに調整されている。
論文 参考訳(メタデータ) (2023-07-18T05:30:23Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused
Interventions [18.545193011418654]
本稿では,視覚的質問応答(VQA)システムの一般化機能について考察する。
本稿では,モデル予測の一貫性を計測する新しいロバストネス尺度,Robustness to Augmented Data (RAD)を提案する。
私たちは、現在のVQAシステムがまだ脆弱であることを示す、重大な障害ケースを見つけました。
論文 参考訳(メタデータ) (2021-06-08T16:09:47Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - Latent Variable Models for Visual Question Answering [34.9601948665926]
視覚質問応答に対する潜在変数モデルを提案する。
余分な情報(例)
キャプションと回答カテゴリ)は推論を改善するために潜在変数として組み込まれます。
VQA v2.0ベンチマークデータセットの実験は、提案されたモデルの有効性を示している。
論文 参考訳(メタデータ) (2021-01-16T08:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。