論文の概要: Modularized Zero-shot VQA with Pre-trained Models
- arxiv url: http://arxiv.org/abs/2305.17369v2
- Date: Wed, 24 Jan 2024 12:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 17:54:29.777339
- Title: Modularized Zero-shot VQA with Pre-trained Models
- Title(参考訳): 事前学習モデルを用いたモジュール化ゼロショットVQA
- Authors: Rui Cao and Jing Jiang
- Abstract要約: 本稿では,質問をサブ推論ステップに明示的に分解し,高度に解釈可能なモジュール化されたゼロショットネットワークを提案する。
ゼロショット設定下での2つのVQAベンチマーク実験により,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 20.674979268279728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pre-trained models (PTMs) show great zero-shot capabilities. In
this paper, we study how to leverage them for zero-shot visual question
answering (VQA). Our approach is motivated by a few observations. First, VQA
questions often require multiple steps of reasoning, which is still a
capability that most PTMs lack. Second, different steps in VQA reasoning chains
require different skills such as object detection and relational reasoning, but
a single PTM may not possess all these skills. Third, recent work on zero-shot
VQA does not explicitly consider multi-step reasoning chains, which makes them
less interpretable compared with a decomposition-based approach. We propose a
modularized zero-shot network that explicitly decomposes questions into sub
reasoning steps and is highly interpretable. We convert sub reasoning tasks to
acceptable objectives of PTMs and assign tasks to proper PTMs without any
adaptation. Our experiments on two VQA benchmarks under the zero-shot setting
demonstrate the effectiveness of our method and better interpretability
compared with several baselines.
- Abstract(参考訳): 大規模事前訓練モデル(PTM)は、優れたゼロショット機能を示す。
本稿では,ゼロショット視覚質問応答(VQA)の活用方法について検討する。
我々のアプローチはいくつかの観察によって動機づけられている。
第一に、VQAの質問は、しばしば複数の推論ステップを必要とするが、ほとんどのPTMに欠けている能力である。
第2に、VQA推論チェーンの異なるステップは、オブジェクト検出やリレーショナル推論のような異なるスキルを必要とするが、単一のPTMはこれらのスキルをすべて持っていないかもしれない。
第3に、ゼロショットVQAに関する最近の研究は、多段階推論連鎖を明示的に考慮していない。
本稿では,質問を部分的推論ステップに明示的に分解し,高い解釈性を持つモジュラー化ゼロショットネットワークを提案する。
我々はサブ推論タスクを PTM の許容目的に変換し、適応なしに適切な PTM にタスクを割り当てる。
ゼロショット設定下での2つのVQAベンチマーク実験は,本手法の有効性と,いくつかのベースラインと比較して高い解釈性を示した。
関連論文リスト
- Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering [19.351516992903697]
EmphMixture of Rationales (MoR) は、ゼロショット視覚的質問応答のための複数の論理を混合する新しいマルチモーダル推論手法である。
MoRはNLVR2では12.43%の精度向上、OKVQA-Sでは2.45%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-06-03T15:04:47Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models
with Zero Training [82.30343537942608]
ゼロショットVQAのためのモジュラーフレームワークであるPlug-and-Play VQA(PNP-VQA)を提案する。
まず質問誘導画像キャプションを生成し,そのキャプションを質問応答のコンテキストとしてPLMに渡す。
PNP-VQAはゼロショットVQAv2およびGQAの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-10-17T06:29:54Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。