論文の概要: From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models
- arxiv url: http://arxiv.org/abs/2212.10846v1
- Date: Wed, 21 Dec 2022 08:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:41:51.716236
- Title: From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models
- Title(参考訳): 画像からテキストへのプロンプト:凍結型大言語モデルによるゼロショットVQA
- Authors: Jiaxian Guo, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Boyang Li,
Dacheng Tao, Steven C.H. Hoi
- Abstract要約: 大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
- 参考スコア(独自算出の注目度): 111.42052290293965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated excellent zero-shot
generalization to new language tasks. However, effective utilization of LLMs
for zero-shot visual question-answering (VQA) remains challenging, primarily
due to the modality disconnection and task disconnection between LLM and VQA
task. End-to-end training on vision and language data may bridge the
disconnections, but is inflexible and computationally expensive. To address
this issue, we propose \emph{Img2Prompt}, a plug-and-play module that provides
the prompts that can bridge the aforementioned modality and task
disconnections, so that LLMs can perform zero-shot VQA tasks without end-to-end
training. In order to provide such prompts, we further employ LLM-agnostic
models to provide prompts that can describe image content and self-constructed
question-answer pairs, which can effectively guide LLM to perform zero-shot VQA
tasks. Img2Prompt offers the following benefits: 1) It can flexibly work with
various LLMs to perform VQA. 2)~Without the needing of end-to-end training, it
significantly reduces the cost of deploying LLM for zero-shot VQA tasks. 3) It
achieves comparable or better performance than methods relying on end-to-end
training. For example, we outperform Flamingo~\cite{Deepmind:Flamingo2022} by
5.6\% on VQAv2. On the challenging A-OKVQA dataset, our method even outperforms
few-shot methods by as much as 20\%.
- Abstract(参考訳): 大規模言語モデル(llm)は、新しい言語タスクに対する優れたゼロショット一般化を示している。
しかしながら、ゼロショット視覚質問応答(VQA)におけるLLMの有効利用は、主にLLMとVQAのタスク間のモダリティの切断とタスクの切断のため、依然として困難である。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟で計算コストが高い。
この問題に対処するために,上述したモダリティとタスクの切断をブリッジ可能なプロンプトを提供するプラグイン・アンド・プレイモジュールである \emph{Img2Prompt} を提案する。
このようなプロンプトを提供するために,LLM非依存モデルを用いて,画像の内容や自己構築型質問応答ペアを記述可能なプロンプトを提供することにより,ゼロショットVQAタスクの実行を効果的に導くことができる。
Img2Promptは以下の利点を提供する: 1) VQAを実行するために様々なLLMで柔軟に動作する。
2) エンドツーエンドのトレーニングを必要とせずに、ゼロショットVQAタスクにLLMをデプロイするコストを大幅に削減する。
3) エンドツーエンドトレーニングに依存するメソッドと同等あるいは優れたパフォーマンスを実現する。
例えば、VQAv2 上で Flamingo~\cite{Deepmind:Flamingo2022} を 5.6 % 上回る。
挑戦的なA-OKVQAデータセットでは、我々の手法は、数ショットの手法よりも最大20%優れています。
関連論文リスト
- VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - What Large Language Models Bring to Text-rich VQA? [38.569505870771025]
テキストリッチVQA(英: Text-rich VQA)は、画像中のテキスト認識に基づく視覚的質問応答(Visual Question Answering)であり、画像の理解とテキスト認識の両方を必要とする。
上記の懸念に対処するために、外部のOCRモデルを用いて画像中のテキストを認識し、Large Language Models (LLMs) を用いて質問に答える。
このパイプラインは、既存のMLLM(Multimodal Large Language Models)の4つのテキストリッチなVQAデータセットと比較して、優れたパフォーマンスを実現した。
論文 参考訳(メタデータ) (2023-11-13T12:52:29Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2021-10-16T06:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。