Fugu-MT 論文翻訳(概要): MoqaGPT : Zero-Shot Multi-modal Open-domain Question Answering with Large Language Model

論文の概要: MoqaGPT : Zero-Shot Multi-modal Open-domain Question Answering with Large Language Model

arxiv url: http://arxiv.org/abs/2310.13265v1
Date: Fri, 20 Oct 2023 04:09:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 00:26:33.664219
Title: MoqaGPT : Zero-Shot Multi-modal Open-domain Question Answering with Large Language Model
Title（参考訳）: MoqaGPT : 大規模言語モデルを用いたゼロショットマルチモーダルオープンドメイン質問応答
Authors: Le Zhang, Yihong Wu, Fengran Mo, Jian-Yun Nie, Aishwarya Agrawal
Abstract要約: MoqaGPTはマルチモーダルなオープンドメイン質問応答のためのフレームワークである。それぞれのモダリティから回答を別々に抽出し、LLMを用いてこのマルチモーダル情報を融合して最終回答を生成する。 MultiModalQAデータセットでは、MoqaGPTはゼロショットベースラインを超え、F1を9.5ポイント、EMを10.1ポイント改善し、教師付きメソッドとのギャップを大幅に埋める。
参考スコア（独自算出の注目度）: 33.546564412022754
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal open-domain question answering typically requires evidence retrieval from databases across diverse modalities, such as images, tables, passages, etc. Even Large Language Models (LLMs) like GPT-4 fall short in this task. To enable LLMs to tackle the task in a zero-shot manner, we introduce MoqaGPT, a straightforward and flexible framework. Using a divide-and-conquer strategy that bypasses intricate multi-modality ranking, our framework can accommodate new modalities and seamlessly transition to new models for the task. Built upon LLMs, MoqaGPT retrieves and extracts answers from each modality separately, then fuses this multi-modal information using LLMs to produce a final answer. Our methodology boosts performance on the MMCoQA dataset, improving F1 by +37.91 points and EM by +34.07 points over the supervised baseline. On the MultiModalQA dataset, MoqaGPT surpasses the zero-shot baseline, improving F1 by 9.5 points and EM by 10.1 points, and significantly closes the gap with supervised methods. Our codebase is available at https://github.com/lezhang7/MOQAGPT.
Abstract（参考訳）: マルチモーダルなオープンドメイン質問応答は通常、画像、テーブル、パッセージなど、さまざまなモダリティにわたるデータベースからの証拠検索を必要とする。 GPT-4のような大規模言語モデル(LLM)でさえ、このタスクでは不足している。 LLMがゼロショットでタスクに対処できるようにするため、単純で柔軟なフレームワークであるMoqaGPTを導入する。複雑なマルチモダリティランキングをバイパスする分割・結合戦略を用いることで、新しいモダリティに対応し、タスクの新しいモデルにシームレスに移行できる。 LLM上に構築されたMoqaGPTは、各モードから回答を分離して抽出し、LLMを使用してこのマルチモーダル情報を融合して最終的な回答を生成する。我々の手法はMMCoQAデータセットの性能を高め、F1を+37.91点、EMを+34.07点改善する。 MultiModalQAデータセットでは、MoqaGPTはゼロショットベースラインを超え、F1を9.5ポイント、EMを10.1ポイント改善し、教師付きメソッドとのギャップを大幅に埋める。私たちのコードベースはhttps://github.com/lezhang7/moqagptで利用可能です。

関連論文リスト

Mixed-R1: Unified Reward Perspective For Reasoning Capability in Multimodal Large Language Models [44.32482918853282]
マルチソースMLLMタスクを安定した強化学習に活用できる作業は存在しない。混合報酬関数設計(Mixed-Reward)と混合後学習データセット(Mixed-45K)を含む統一的かつ簡単なフレームワークであるMixed-R1を提案する。特に、バイナリ回答や複数選択問題に対する報酬のマッチング、チャート対応データセットに対するチャート報酬、基底問題に対するIoU報酬、キャプションデータセットのような長文応答に対するオープンエンド報酬の4つの異なる報酬機能がある。
論文参考訳（メタデータ） (2025-05-30T03:11:46Z)
GPT Carry-On: Training Foundation Model for Customization Could Be Simple, Scalable and Affordable [1.79487674052027]
既存の大規模言語基盤モデル(LLM)の利点をフル活用するためのフレームワークを提案する。予め訓練されたLLMを最終層に埋め込んだ上で,トランスフォーマーブロックの追加ブランチをトレーニングし,その後,キャリーオンモジュールがベースモデルをマージして,カスタマイズされたLLMを構成する。ベースモデルはパラメータを更新する必要がないため、推論ノード上でトレーニングジョブのほとんどの計算をアウトソースすることが可能です。
論文参考訳（メタデータ） (2025-04-10T07:15:40Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文参考訳（メタデータ） (2024-07-23T03:58:08Z)
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。 MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。 MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文参考訳（メタデータ） (2024-06-17T17:59:47Z)
TraveLER: A Modular Multi-LMM Agent Framework for Video Question-Answering [48.55956886819481]
異なる役割を持つ複数のエージェントに基づくモジュール型マルチLMMエージェントフレームワークを提案する。具体的には、ビデオを通して"Traverse"計画を作成する方法であるTraveLERを提案する。提案したTraveLERアプローチは、特定のデータセットを微調整することなく、複数のVideoQAベンチマークのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2024-04-01T20:58:24Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文参考訳（メタデータ） (2023-06-22T07:57:19Z)
Enhancing In-Context Learning with Answer Feedback for Multi-Span Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。 3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文参考訳（メタデータ） (2023-06-07T15:20:24Z)
Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T18:23:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。