論文の概要: Multimodal Question Answering for Unified Information Extraction
- arxiv url: http://arxiv.org/abs/2310.03017v1
- Date: Wed, 4 Oct 2023 17:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 13:19:03.983366
- Title: Multimodal Question Answering for Unified Information Extraction
- Title(参考訳): 統一情報抽出のためのマルチモーダル質問応答
- Authors: Yuxuan Sun, Kai Zhang, Yu Su
- Abstract要約: マルチモーダル情報抽出は、構造化されていないマルチメディアコンテンツから構造化された情報を抽出することを目的としている。
現在のMIEモデルはタスク固有でデータ集約である。
3つのMIEタスクを統合するための新しいマルチモーダル質問応答(MQA)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.798187192290746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal information extraction (MIE) aims to extract structured
information from unstructured multimedia content. Due to the diversity of tasks
and settings, most current MIE models are task-specific and data-intensive,
which limits their generalization to real-world scenarios with diverse task
requirements and limited labeled data. To address these issues, we propose a
novel multimodal question answering (MQA) framework to unify three MIE tasks by
reformulating them into a unified span extraction and multi-choice QA pipeline.
Extensive experiments on six datasets show that: 1) Our MQA framework
consistently and significantly improves the performances of various
off-the-shelf large multimodal models (LMM) on MIE tasks, compared to vanilla
prompting. 2) In the zero-shot setting, MQA outperforms previous
state-of-the-art baselines by a large margin. In addition, the effectiveness of
our framework can successfully transfer to the few-shot setting, enhancing LMMs
on a scale of 10B parameters to be competitive or outperform much larger
language models such as ChatGPT and GPT-4. Our MQA framework can serve as a
general principle of utilizing LMMs to better solve MIE and potentially other
downstream multimodal tasks.
- Abstract(参考訳): マルチモーダル情報抽出(MIE)は、構造化されていないマルチメディアコンテンツから構造化情報を抽出することを目的としている。
タスクや設定の多様性のため、現在のMIEモデルはタスク固有のデータ集約型であり、様々なタスク要求とラベル付きデータによる現実シナリオへの一般化を制限している。
これらの問題に対処するため、我々は3つのMIEタスクを統一されたスパン抽出とマルチ選択QAパイプラインに再構成して統合する、新しいマルチモーダル質問応答(MQA)フレームワークを提案する。
6つのデータセットに関する広範囲な実験では
1)我々のMQAフレームワークは、バニラプロンプトと比較して、MIEタスクにおける様々な既製の大規模マルチモーダルモデル(LMM)の性能を一貫して改善します。
2)ゼロショット設定では、MQAは従来の最先端のベースラインを大きなマージンで上回ります。
さらに,我々のフレームワークの有効性は,ChatGPT や GPT-4 といったより大きな言語モデルよりも優れ,競争力のある10B パラメータで LMM を拡張できる。
我々のMQAフレームワークは、MIEや他の下流マルチモーダルタスクをよりよく解決するためにLMMを利用する一般的な原則として機能します。
関連論文リスト
- Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Simplifying Multimodality: Unimodal Approach to Multimodal Challenges in Radiology with General-Domain Large Language Model [3.012719451477384]
MID-Mは,汎用言語モデル(LLM)のコンテキスト内学習機能を利用して,画像記述によるマルチモーダルデータの処理を行う新しいフレームワークである。
MID-Mは、タスク固有の微調整 LMM や他の汎用ドメインと同等または優れた性能を達成し、ドメイン固有の訓練やマルチモーダルデータによる事前トレーニングは行わない。
データ品質問題に対するMID-Mの堅牢性は、実世界の医療ドメインアプリケーションにおいて実用性を示している。
論文 参考訳(メタデータ) (2024-04-29T13:23:33Z) - Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。
MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-03-17T19:12:26Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - UMIE: Unified Multimodal Information Extraction with Instruction Tuning [12.777967562175437]
命令チューニングを用いた生成問題として、3つのMIEタスクを統一する統合マルチモーダル情報抽出器UMIEを提案する。
大規模な実験により、私たちのUMIEは6つのMIEデータセットで3つのタスクで様々な最先端(SoTA)メソッドより優れています。
本研究は,MIEモデルを統一化するための最初のステップとして機能し,MIEドメイン内の命令チューニングモデルと大規模言語モデルの両方を探索する。
論文 参考訳(メタデータ) (2024-01-05T22:52:15Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。