論文の概要: Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models
with Zero Training
- arxiv url: http://arxiv.org/abs/2210.08773v1
- Date: Mon, 17 Oct 2022 06:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:38:45.828921
- Title: Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models
with Zero Training
- Title(参考訳): プラグイン・アンド・プレイ型VQA:ゼロショット型VQA
- Authors: Anthony Meng Huat Tiong, Junnan Li, Boyang Li, Silvio Savarese, Steven
C.H. Hoi
- Abstract要約: ゼロショットVQAのためのモジュラーフレームワークであるPlug-and-Play VQA(PNP-VQA)を提案する。
まず質問誘導画像キャプションを生成し,そのキャプションを質問応答のコンテキストとしてPLMに渡す。
PNP-VQAはゼロショットVQAv2およびGQAの最先端結果を達成する。
- 参考スコア(独自算出の注目度): 82.30343537942608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering (VQA) is a hallmark of vision and language
reasoning and a challenging task under the zero-shot setting. We propose
Plug-and-Play VQA (PNP-VQA), a modular framework for zero-shot VQA. In contrast
to most existing works, which require substantial adaptation of pretrained
language models (PLMs) for the vision modality, PNP-VQA requires no additional
training of the PLMs. Instead, we propose to use natural language and network
interpretation as an intermediate representation that glues pretrained models
together. We first generate question-guided informative image captions, and
pass the captions to a PLM as context for question answering. Surpassing
end-to-end trained baselines, PNP-VQA achieves state-of-the-art results on
zero-shot VQAv2 and GQA. With 11B parameters, it outperforms the 80B-parameter
Flamingo model by 8.5% on VQAv2. With 738M PLM parameters, PNP-VQA achieves an
improvement of 9.1% on GQA over FewVLM with 740M PLM parameters. Code is
released at https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa
- Abstract(参考訳): 視覚的質問応答(VQA)は、視覚と言語推論の目印であり、ゼロショット設定下での課題である。
ゼロショットVQAのためのモジュラーフレームワークであるPlug-and-Play VQA(PNP-VQA)を提案する。
PNP-VQAは、視覚モダリティに対する事前訓練言語モデル(PLM)の相当な適応を必要とする既存のほとんどの作品とは対照的に、PLMのさらなる訓練は必要としない。
代わりに、事前学習されたモデルを結合する中間表現として、自然言語とネットワーク解釈を用いることを提案する。
まず質問誘導画像キャプションを生成し,そのキャプションを質問応答のコンテキストとしてPLMに渡す。
PNP-VQAは、エンドツーエンドのトレーニングベースラインを越えて、ゼロショットVQAv2とGQAの最先端結果を達成する。
11Bパラメータでは、VQAv2で80BパラメータのFlamingoモデルよりも8.5%優れていた。
738M PLMパラメータを持つPNP-VQAは、740M PLMパラメータを持つFewVLMよりもGQAが9.1%向上した。
コードはhttps://github.com/salesforce/lavis/tree/main/projects/pnp-vqaでリリース
関連論文リスト
- SparrowVQE: Visual Question Explanation for Course Content Understanding [12.926309478839652]
本稿では、視覚的質問説明(VQE)を導入し、VQAの詳細な説明を提供する能力を高める。
我々は,マルチモーダル・プレトレーニング,インストラクション・チューニング,ドメインファインチューニングという3段階のトレーニング機構でモデルを訓練した。
実験結果から,我々のSparrowVQEは,開発したMLVQEデータセットの性能向上と,他の5つのベンチマークVQAデータセットの最先端メソッドのパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2024-11-12T03:25:33Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Modular Visual Question Answering via Code Generation [134.59005611826777]
モジュラーコード生成として視覚的質問応答を定式化するフレームワークを提案する。
提案手法では、事前学習言語モデル(LM)、画像キャプチャペアで事前学習した視覚モデル、コンテキスト内学習に使用する50のVQA例など、追加のトレーニングは不要である。
コード生成を行わない少数のベースラインと比較して,COVRデータセットの精度を少なくとも3%,GQAデータセットの精度を約2%向上させる。
論文 参考訳(メタデータ) (2023-06-08T17:45:14Z) - Modularized Zero-shot VQA with Pre-trained Models [20.674979268279728]
本稿では,質問をサブ推論ステップに明示的に分解し,高度に解釈可能なモジュール化されたゼロショットネットワークを提案する。
ゼロショット設定下での2つのVQAベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-27T05:00:14Z) - From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:39:36Z) - A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2021-10-16T06:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。