論文の概要: Multimodal Prompt Retrieval for Generative Visual Question Answering
- arxiv url: http://arxiv.org/abs/2306.17675v1
- Date: Fri, 30 Jun 2023 14:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 12:05:15.565441
- Title: Multimodal Prompt Retrieval for Generative Visual Question Answering
- Title(参考訳): 生成的視覚質問応答のためのマルチモーダルプロンプト検索
- Authors: Timothy Ossowski, Junjie Hu
- Abstract要約: 本稿では、検索したプロンプトとマルチモーダル機能を統合して、自由テキストで回答を生成するマルチモーダルプロンプト検索(MPR)によって強化された新しい生成モデルを提案する。
医療用VQAタスクの実験では、MPRはドメイン適応の設定において、最大30%の精度で検索不能なタスクを上回ります。
- 参考スコア(独自算出の注目度): 9.973591610073006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed impressive results of pre-trained vision-language
models on knowledge-intensive tasks such as visual question answering (VQA).
Despite the recent advances in VQA, existing methods mainly adopt a
discriminative formulation that predicts answers within a pre-defined label
set, leading to easy overfitting on low-resource domains with limited labeled
data (e.g., medicine) and poor generalization under domain shift to another
dataset. To tackle this limitation, we propose a novel generative model
enhanced by multimodal prompt retrieval (MPR) that integrates retrieved prompts
and multimodal features to generate answers in free text. Our generative model
enables rapid zero-shot dataset adaptation to unseen data distributions and
open-set answer labels across datasets. Our experiments on medical VQA tasks
show that MPR outperforms its non-retrieval counterpart by up to 30% accuracy
points in a few-shot domain adaptation setting.
- Abstract(参考訳): 近年,vqa (visual question answering) などの知識集約タスクにおいて,事前学習された視覚言語モデルの印象的な結果が報告されている。
vqaの最近の進歩にもかかわらず、既存の手法では、事前に定義されたラベルセット内の回答を予測する識別的定式化を主に採用しており、制限されたラベル付きデータ(医学など)による低リソースドメインのオーバーフィットや、ドメインシフトによる非一般化が容易になっている。
そこで本研究では,mpr (multimodal prompt retrieval) を用いて,検索されたプロンプトとマルチモーダル機能を統合し,自由テキストで回答を生成する新しい生成モデルを提案する。
当社の生成モデルは,データセットをまたいだ非知覚データ分布とオープンセットの回答ラベルに対して,迅速なゼロショットデータセット適応を可能にする。
医療用VQAタスクの実験では、MPRはドメイン適応の設定において、最大30%の精度で検索不能なタスクを上回ります。
関連論文リスト
- RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - Adapting Pre-trained Generative Models for Extractive Question Answering [4.993041970406846]
本稿では、事前学習された生成モデルのパワーを用いて、抽出されたQAタスクに対処する新しいアプローチを提案する。
本稿では,既存の最先端モデルと比較して,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-06T09:01:02Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - Combining Data Generation and Active Learning for Low-Resource Question Answering [23.755283239897132]
低リソース環境での性能向上を図るために,質問応答生成によるデータ拡張とアクティブラーニングを組み合わせた新しい手法を提案する。
我々の新しいアプローチは、人間がデータ生成アプローチに組み込まれることで、低リソースでドメイン固有の設定のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2022-11-27T16:31:33Z) - Intermediate Training on Question Answering Datasets Improves Generative
Data Augmentation [32.83012699501051]
我々は、コンテキスト生成タスクとしてデータ生成を定式化することにより、生成データ拡張を改善する。
ダウンストリームタスクを質問応答形式に投入し、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。
少数ショット、ゼロショット設定で、パフォーマンスが大幅に改善されたことを実証します。
論文 参考訳(メタデータ) (2022-05-25T09:28:21Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。