論文の概要: MoqaGPT : Zero-Shot Multi-modal Open-domain Question Answering with
Large Language Model
- arxiv url: http://arxiv.org/abs/2310.13265v1
- Date: Fri, 20 Oct 2023 04:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:26:33.664219
- Title: MoqaGPT : Zero-Shot Multi-modal Open-domain Question Answering with
Large Language Model
- Title(参考訳): MoqaGPT : 大規模言語モデルを用いたゼロショットマルチモーダルオープンドメイン質問応答
- Authors: Le Zhang, Yihong Wu, Fengran Mo, Jian-Yun Nie, Aishwarya Agrawal
- Abstract要約: MoqaGPTはマルチモーダルなオープンドメイン質問応答のためのフレームワークである。
それぞれのモダリティから回答を別々に抽出し、LLMを用いてこのマルチモーダル情報を融合して最終回答を生成する。
MultiModalQAデータセットでは、MoqaGPTはゼロショットベースラインを超え、F1を9.5ポイント、EMを10.1ポイント改善し、教師付きメソッドとのギャップを大幅に埋める。
- 参考スコア(独自算出の注目度): 33.546564412022754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal open-domain question answering typically requires evidence
retrieval from databases across diverse modalities, such as images, tables,
passages, etc. Even Large Language Models (LLMs) like GPT-4 fall short in this
task. To enable LLMs to tackle the task in a zero-shot manner, we introduce
MoqaGPT, a straightforward and flexible framework. Using a divide-and-conquer
strategy that bypasses intricate multi-modality ranking, our framework can
accommodate new modalities and seamlessly transition to new models for the
task. Built upon LLMs, MoqaGPT retrieves and extracts answers from each
modality separately, then fuses this multi-modal information using LLMs to
produce a final answer. Our methodology boosts performance on the MMCoQA
dataset, improving F1 by +37.91 points and EM by +34.07 points over the
supervised baseline. On the MultiModalQA dataset, MoqaGPT surpasses the
zero-shot baseline, improving F1 by 9.5 points and EM by 10.1 points, and
significantly closes the gap with supervised methods. Our codebase is available
at https://github.com/lezhang7/MOQAGPT.
- Abstract(参考訳): マルチモーダルなオープンドメイン質問応答は通常、画像、テーブル、パッセージなど、さまざまなモダリティにわたるデータベースからの証拠検索を必要とする。
GPT-4のような大規模言語モデル(LLM)でさえ、このタスクでは不足している。
LLMがゼロショットでタスクに対処できるようにするため、単純で柔軟なフレームワークであるMoqaGPTを導入する。
複雑なマルチモダリティランキングをバイパスする分割・結合戦略を用いることで、新しいモダリティに対応し、タスクの新しいモデルにシームレスに移行できる。
LLM上に構築されたMoqaGPTは、各モードから回答を分離して抽出し、LLMを使用してこのマルチモーダル情報を融合して最終的な回答を生成する。
我々の手法はMMCoQAデータセットの性能を高め、F1を+37.91点、EMを+34.07点改善する。
MultiModalQAデータセットでは、MoqaGPTはゼロショットベースラインを超え、F1を9.5ポイント、EMを10.1ポイント改善し、教師付きメソッドとのギャップを大幅に埋める。
私たちのコードベースはhttps://github.com/lezhang7/moqagptで利用可能です。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。
MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。
MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文 参考訳(メタデータ) (2024-06-17T17:59:47Z) - TraveLER: A Modular Multi-LMM Agent Framework for Video Question-Answering [48.55956886819481]
異なる役割を持つ複数のエージェントに基づくモジュール型マルチLMMエージェントフレームワークを提案する。
具体的には、ビデオを通して"Traverse"計画を作成する方法であるTraveLERを提案する。
提案したTraveLERアプローチは、特定のデータセットを微調整することなく、複数のVideoQAベンチマークのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-04-01T20:58:24Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。