論文の概要: Measuring CLEVRness: Blackbox testing of Visual Reasoning Models
- arxiv url: http://arxiv.org/abs/2202.12162v1
- Date: Thu, 24 Feb 2022 15:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 17:03:13.950560
- Title: Measuring CLEVRness: Blackbox testing of Visual Reasoning Models
- Title(参考訳): CLEVRnessの測定:ビジュアル推論モデルのブラックボックステスト
- Authors: Spyridon Mouselinos, Henryk Michalewski, Mateusz Malinowski
- Abstract要約: 我々は,CLEVRのブラックボックスニューラルモデルについて検討する。
CLEVRモデルは人間レベルで動作可能で、エージェントによって簡単に騙されることを示す。
我々の結果は、データ駆動アプローチがこれらのデータセットにしばしば存在する多くのバイアスを活用せずに推論できるかどうかを疑った。
- 参考スコア(独自算出の注目度): 16.094062131137722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we measure the reasoning capabilities of intelligence systems? Visual
question answering provides a convenient framework for testing the model's
abilities by interrogating the model through questions about the scene.
However, despite scores of various visual QA datasets and architectures, which
sometimes yield even a super-human performance, the question of whether those
architectures can actually reason remains open to debate. To answer this, we
extend the visual question answering framework and propose the following
behavioral test in the form of a two-player game. We consider black-box neural
models of CLEVR. These models are trained on a diagnostic dataset benchmarking
reasoning. Next, we train an adversarial player that re-configures the scene to
fool the CLEVR model. We show that CLEVR models, which otherwise could perform
at a human level, can easily be fooled by our agent. Our results put in doubt
whether data-driven approaches can do reasoning without exploiting the numerous
biases that are often present in those datasets. Finally, we also propose a
controlled experiment measuring the efficiency of such models to learn and
perform reasoning.
- Abstract(参考訳): インテリジェンスシステムの推論能力をどのように測定するか。
視覚的な質問応答は、シーンに関する質問を通じてモデルを問うことによって、モデルの能力をテストするための便利なフレームワークを提供する。
しかし、様々な視覚的なQAデータセットやアーキテクチャのスコアが超人的なパフォーマンスをもたらすこともあるにもかかわらず、これらのアーキテクチャが実際に理由付けできるかどうかという問題は議論の余地がある。
そこで本研究では,視覚質問応答フレームワークを拡張し,2人のプレイヤーによるゲーム形式で次の行動テストを提案する。
CLEVRのブラックボックスニューラルモデルを考える。
これらのモデルは、診断データセットのベンチマーク推論でトレーニングされる。
次に、CLEVRモデルを騙すためにシーンを再設定する敵プレイヤーを訓練する。
我々は、clevrモデルが人間レベルで動作可能でなければ、エージェントによって簡単に騙される可能性があることを示します。
我々の結果は、データ駆動アプローチがこれらのデータセットにしばしば存在する多くのバイアスを活用せずに推論できるかどうかを疑った。
最後に,そのようなモデルの学習と推論を行うための効率を測定する制御実験を提案する。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering [26.34649731975005]
Retriever-augmented instruction-following modelは、質問応答のための微調整アプローチ(QA)の魅力的な代替品である
モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデルパフォーマンスを正確に定量化するために従来のQA評価指標は信頼できない。
1) ユーザの情報要求(正確性)をどの程度満足させるか,2) 提供された知識(忠実性)に基づいて応答を生成するか,という2つの次元に沿って,これらのモデルを評価するために,自動評価と人的評価の両方を用いる。
論文 参考訳(メタデータ) (2023-07-31T17:41:00Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary
Visual Reasoning [0.4759142872591625]
本稿では,最小バイアスの診断的質問応答データセットであるQLEVRを紹介する。
本稿では,そのデータセットがどのように作成され,最先端の視覚的質問応答モデルの最初の評価結果を示す。
論文 参考訳(メタデータ) (2022-05-06T08:51:13Z) - Explaining RADAR features for detecting spoofing attacks in Connected
Autonomous Vehicles [2.8153045998456188]
コネクテッド・自動運転車(CAV)は、サイバー攻撃から守るためのAIシステムが組み込まれていると期待されている。
機械学習(ML)モデルは、このようなAIシステムの基盤となる。
本稿では,センサ入力におけるテキストの不確かさとテキスト不確かさを説明するモデルを提案する。
論文 参考訳(メタデータ) (2022-03-01T00:11:46Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - Simulated Adversarial Testing of Face Recognition Models [53.10078734154151]
本稿では,シミュレータを用いて機械学習アルゴリズムの検証方法を学ぶためのフレームワークを提案する。
実データでトレーニングされたモデルの弱点が、シミュレーションサンプルを使って発見できることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-08T17:58:10Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Show Why the Answer is Correct! Towards Explainable AI using
Compositional Temporal Attention [0.9054540533394924]
VQAモデルの成功にもかかわらず、主にブラックボックスモデルであり、予測された回答の理由を示さない。
芸術の現在の状態は、より複雑な質問に失敗し、構成性を活用できない。
本稿では,特定の質問を理解し,比較的浅い深層学習モジュールを動的に組み立てる動的ニューラルネットワーク(dmn)を提案する。
論文 参考訳(メタデータ) (2021-05-15T04:51:51Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。