論文の概要: Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering
- arxiv url: http://arxiv.org/abs/2205.00949v1
- Date: Mon, 2 May 2022 14:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 15:37:51.629553
- Title: Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering
- Title(参考訳): Answer-Me:マルチタスクオープン語彙ビジュアル質問回答
- Authors: AJ Piergiovanni, Wei Li, Weicheng Kuo, Mohammad Saffar, Fred Bertsch
and Anelia Angelova
- Abstract要約: タスク対応マルチタスクフレームワークAnswer-Meを提案する。
マルチタスクである視覚言語ジョイントモデルを事前訓練する。
その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
- 参考スコア(独自算出の注目度): 43.07139534653485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Answer-Me, a task-aware multi-task framework which unifies a
variety of question answering tasks, such as, visual question answering, visual
entailment, visual reasoning. In contrast to previous works using contrastive
or generative captioning training, we propose a novel and simple recipe to
pre-train a vision-language joint model, which is multi-task as well. The
pre-training uses only noisy image captioning data, and is formulated to use
the entire architecture end-to-end with both a strong language encoder and
decoder. Our results show state-of-the-art performance, zero-shot
generalization, robustness to forgetting, and competitive single-task results
across a variety of question answering tasks. Our multi-task mixture training
learns from tasks of various question intents and thus generalizes better,
including on zero-shot vision-language tasks. We conduct experiments in the
challenging multi-task and open-vocabulary settings and across a variety of
datasets and tasks, such as VQA2.0, SNLI-VE, NLVR2, GQA, VizWiz. We observe
that the proposed approach is able to generalize to unseen tasks and that more
diverse mixtures lead to higher accuracy in both known and novel tasks.
- Abstract(参考訳): 本研究では,様々な質問応答タスクを統一するタスク認識型マルチタスクフレームワークである answer-me を提案する。
コントラストやジェネレーティブなキャプショントレーニングを用いた従来の作品とは対照的に,マルチタスクである視覚言語統合モデルを事前学習する,新しいシンプルなレシピを提案する。
事前トレーニングはノイズの多い画像キャプションデータのみを使用し、強固な言語エンコーダとデコーダの両方でエンドツーエンドでアーキテクチャ全体を使用するように定式化されている。
以上の結果から, 最先端性能, ゼロショット一般化, 忘れやすい頑健性, および様々な質問応答タスクにおける競合シングルタスクの結果が得られた。
マルチタスク混合トレーニングは,さまざまな質問意図のタスクから学習し,ゼロショット視覚言語タスクを含む,よりよい一般化を行う。
vqa2.0,snli-ve,nlvr2,gqa,vizwizなど,さまざまなデータセットやタスクをまたいで,課題の多いマルチタスクとオープンボキャブラリー設定で実験を行う。
我々は,提案手法が未発見のタスクに一般化できること,さらに多様な混合が既知のタスクと新規タスクの両方において高い精度をもたらすことを観察する。
関連論文リスト
- Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。
MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。
20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T18:41:44Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - Towards More Generalizable One-shot Visual Imitation Learning [81.09074706236858]
汎用ロボットは、幅広いタスクを習得し、過去の経験を生かして、新しいタスクを素早く学ぶことができるべきである。
ワンショット模倣学習(OSIL)は、専門家のデモンストレーションでエージェントを訓練することで、この目標にアプローチする。
我々は、より野心的なマルチタスク設定を調査することで、より高度な一般化能力を追求する。
論文 参考訳(メタデータ) (2021-10-26T05:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。