論文の概要: Exploring Weaknesses of VQA Models through Attribution Driven Insights
- arxiv url: http://arxiv.org/abs/2006.06637v2
- Date: Tue, 16 Jun 2020 12:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:35:24.139399
- Title: Exploring Weaknesses of VQA Models through Attribution Driven Insights
- Title(参考訳): 帰属駆動によるVQAモデルの弱さの探索
- Authors: Shaunak Halbe
- Abstract要約: 近年の研究では、視覚障害者の視覚的質問にこれらのVQAモデルを効果的に適用している。
我々は、帰属レンズ(インプットの影響)を通して人気のあるVQAモデルを分析し、価値ある洞察を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks have been successfully used for the task of Visual
Question Answering for the past few years owing to the availability of relevant
large scale datasets. However these datasets are created in artificial settings
and rarely reflect the real world scenario. Recent research effectively applies
these VQA models for answering visual questions for the blind. Despite
achieving high accuracy these models appear to be susceptible to variation in
input questions.We analyze popular VQA models through the lens of attribution
(input's influence on predictions) to gain valuable insights. Further, We use
these insights to craft adversarial attacks which inflict significant damage to
these systems with negligible change in meaning of the input questions. We
believe this will enhance development of systems more robust to the possible
variations in inputs when deployed to assist the visually impaired.
- Abstract(参考訳): 深層ニューラルネットワークは、関連する大規模データセットが利用可能であるため、過去数年間、視覚的な質問応答のタスクにうまく使われてきた。
しかし、これらのデータセットは人工的な設定で作成され、現実世界のシナリオをほとんど反映しない。
近年の研究では、視覚障害者の視覚的質問にこれらのVQAモデルを効果的に適用している。
高い精度を実現しているにもかかわらず、これらのモデルは入力質問のばらつきに影響を受けやすいように見え、人気のあるvqaモデルをアトリビューション(予測に対するインプットの影響)のレンズを通して分析し、貴重な洞察を得る。
さらに,これらの知見を応用して,入力質問の意味を無視できない変化でシステムに大きなダメージを与える敵の攻撃を仕掛ける。
これにより、視覚障害者を支援するためにデプロイされた場合の入力の変化に対して、より堅牢なシステムの開発が促進されると考えています。
関連論文リスト
- A Survey on Transferability of Adversarial Examples across Deep Neural
Networks [54.47263618782188]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性によって"ブラックボックス"攻撃が可能になり、ターゲットモデルの詳細な知識の必要性を回避することができる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability [51.812099161015745]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Uncovering the Hidden Cost of Model Compression [49.937417635812025]
視覚プロンプティング (VP) はコンピュータビジョンにおいて重要な伝達学習手法として登場した。
モデル間隔は視覚的プロンプトベース転送の性能に悪影響を及ぼす。
以上の結果から,疎度が下流視覚刺激モデルの校正に及ぼす影響が示唆された。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Generative Visual Question Answering [0.0]
本稿では、時間的一般化の成果を得られる高度な視覚質問回答(VQA)モデルを作成するための実行可能なアプローチについて論じる。
我々は,VQAv2およびMS-COCOデータセットの画像とキャプションを利用して,安定拡散による新しい画像を生成する新しいデータセットGenVQAを提案する。
パフォーマンス評価では、オリジナルのVQAv2データセットを反映した質問に焦点が当てられ、回答は新しいイメージに調整されている。
論文 参考訳(メタデータ) (2023-07-18T05:30:23Z) - ICON$^2$: Reliably Benchmarking Predictive Inequity in Object Detection [23.419153864862174]
コンピュータビジョンシステムにおける社会的バイアスに関する懸念が高まっている。
ICON$2$は、この問題にしっかりと答えるためのフレームワークです。
BDD100K運転データセットから得られる収入に関して,物体検出の性能に関する詳細な研究を行う。
論文 参考訳(メタデータ) (2023-06-07T17:42:42Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused
Interventions [18.545193011418654]
本稿では,視覚的質問応答(VQA)システムの一般化機能について考察する。
本稿では,モデル予測の一貫性を計測する新しいロバストネス尺度,Robustness to Augmented Data (RAD)を提案する。
私たちは、現在のVQAシステムがまだ脆弱であることを示す、重大な障害ケースを見つけました。
論文 参考訳(メタデータ) (2021-06-08T16:09:47Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - Latent Variable Models for Visual Question Answering [34.9601948665926]
視覚質問応答に対する潜在変数モデルを提案する。
余分な情報(例)
キャプションと回答カテゴリ)は推論を改善するために潜在変数として組み込まれます。
VQA v2.0ベンチマークデータセットの実験は、提案されたモデルの有効性を示している。
論文 参考訳(メタデータ) (2021-01-16T08:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。