論文の概要: VisQA: X-raying Vision and Language Reasoning in Transformers
- arxiv url: http://arxiv.org/abs/2104.00926v1
- Date: Fri, 2 Apr 2021 08:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:41:42.839598
- Title: VisQA: X-raying Vision and Language Reasoning in Transformers
- Title(参考訳): VisQA:トランスフォーマーにおけるX線ビジョンと言語推論
- Authors: Theo Jaunet, Corentin Kervadec, Romain Vuillemot, Grigory Antipov,
Moez Baccouche and Christian Wolf
- Abstract要約: 最近の研究では、最先端のモデルがトレーニングデータのバイアスやショートカットを利用した回答を生み出す傾向があることが示されている。
VisQAは、この推論とバイアス搾取の問題を探求するビジュアル分析ツールです。
- 参考スコア(独自算出の注目度): 10.439369423744708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering systems target answering open-ended textual
questions given input images. They are a testbed for learning high-level
reasoning with a primary use in HCI, for instance assistance for the visually
impaired. Recent research has shown that state-of-the-art models tend to
produce answers exploiting biases and shortcuts in the training data, and
sometimes do not even look at the input image, instead of performing the
required reasoning steps. We present VisQA, a visual analytics tool that
explores this question of reasoning vs. bias exploitation. It exposes the key
element of state-of-the-art neural models -- attention maps in transformers.
Our working hypothesis is that reasoning steps leading to model predictions are
observable from attention distributions, which are particularly useful for
visualization. The design process of VisQA was motivated by well-known bias
examples from the fields of deep learning and vision-language reasoning and
evaluated in two ways. First, as a result of a collaboration of three fields,
machine learning, vision and language reasoning, and data analytics, the work
lead to a direct impact on the design and training of a neural model for VQA,
improving model performance as a consequence. Second, we also report on the
design of VisQA, and a goal-oriented evaluation of VisQA targeting the analysis
of a model decision process from multiple experts, providing evidence that it
makes the inner workings of models accessible to users.
- Abstract(参考訳): 入力画像に対するオープンエンドテキスト質問に対する視覚質問応答システム
それらは、例えば視覚障害者の補助など、hciで主に使用されるハイレベル推論を学ぶためのテストベッドである。
近年の研究では、最先端のモデルがトレーニングデータのバイアスやショートカットを利用した回答を生成する傾向があり、必要な推論ステップを実行するのではなく、入力画像を見ることさえできないことが示されている。
私たちは、推論とバイアスの搾取というこの疑問を探求するビジュアル分析ツールであるvisqaを紹介します。
最先端のニューラルモデルのキー要素 -- トランスフォーマーのアテンションマップ -- を公開する。
我々の作業仮説は、モデル予測につながる推論ステップは、特に可視化に有用な注意分布から観測可能であるというものである。
VisQAの設計プロセスは、ディープラーニングと視覚言語推論の分野でよく知られたバイアスの例によって動機付けられ、二つの方法で評価された。
まず、機械学習、ビジョンと言語推論、データ分析の3つの分野のコラボレーションの結果、この研究は、vqaのためのニューラルモデルの設計とトレーニングに直接的な影響を与え、結果としてモデルのパフォーマンスが向上する。
第2に、visqaの設計、および複数の専門家によるモデル決定プロセスの分析を目的としたvisqaの目標指向評価について報告し、モデルの内部動作をユーザに提供する証拠を提供する。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - AdViCE: Aggregated Visual Counterfactual Explanations for Machine
Learning Model Validation [9.996986104171754]
我々は,ブラックボックスモデルデバッグとバリデーションでユーザをガイドすることを目的とした視覚分析ツールであるAdViCEを紹介する。
1) ユーザ定義データサブセットの意思決定の比較を可能にするインタラクティブな可視化,(2) 反現実的説明の計算と視覚化を行うアルゴリズムとビジュアルデザイン。
論文 参考訳(メタデータ) (2021-09-12T22:52:12Z) - How Transferable are Reasoning Patterns in VQA? [10.439369423744708]
視覚の不確実性は、視覚と言語の問題における推論の学習が成功するのを妨げる要因であると主張する。
私たちは視覚的なオラクルを訓練し、大規模な研究では、スプリアスデータセットバイアスを利用する傾向がはるかに低いという実験的証拠を提供します。
我々はこれらの知見を,オーラルからSOTAトランスフォーマーベースのVQAモデルへの推論パターンの転送により活用する。
論文 参考訳(メタデータ) (2021-04-08T10:18:45Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - Component Analysis for Visual Question Answering Architectures [10.56011196733086]
本論文の主な目的は,視覚質問応答モデルにおける各コンポーネントの影響を包括的に分析することである。
我々の主な貢献は、VQAモデルをトレーニングするためのコアコンポーネントを特定し、その予測性能を最大化することです。
論文 参考訳(メタデータ) (2020-02-12T17:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。