論文の概要: UMIE: Unified Multimodal Information Extraction with Instruction Tuning
- arxiv url: http://arxiv.org/abs/2401.03082v1
- Date: Fri, 5 Jan 2024 22:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 20:34:13.755137
- Title: UMIE: Unified Multimodal Information Extraction with Instruction Tuning
- Title(参考訳): UMIE:インストラクションチューニングによる統合マルチモーダル情報抽出
- Authors: Lin Sun, Kai Zhang, Qingyuan Li, Renze Lou
- Abstract要約: 命令チューニングを用いた生成問題として、3つのMIEタスクを統一する統合マルチモーダル情報抽出器UMIEを提案する。
大規模な実験により、私たちのUMIEは6つのMIEデータセットで3つのタスクで様々な最先端(SoTA)メソッドより優れています。
本研究は,MIEモデルを統一化するための最初のステップとして機能し,MIEドメイン内の命令チューニングモデルと大規模言語モデルの両方を探索する。
- 参考スコア(独自算出の注目度): 12.777967562175437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal information extraction (MIE) gains significant attention as the
popularity of multimedia content increases. However, current MIE methods often
resort to using task-specific model structures, which results in limited
generalizability across tasks and underutilizes shared knowledge across MIE
tasks. To address these issues, we propose UMIE, a unified multimodal
information extractor to unify three MIE tasks as a generation problem using
instruction tuning, being able to effectively extract both textual and visual
mentions. Extensive experiments show that our single UMIE outperforms various
state-of-the-art (SoTA) methods across six MIE datasets on three tasks.
Furthermore, in-depth analysis demonstrates UMIE's strong generalization in the
zero-shot setting, robustness to instruction variants, and interpretability.
Our research serves as an initial step towards a unified MIE model and
initiates the exploration into both instruction tuning and large language
models within the MIE domain. Our code, data, and model are available at
https://github.com/ZUCC-AI/UMIE
- Abstract(参考訳): マルチメディアコンテンツの普及に伴い,マルチモーダル情報抽出(MIE)が注目されている。
しかし、現在のMIE手法はタスク固有のモデル構造を使い、結果としてタスク間の一般化性が制限され、MIEタスク間の共有知識が利用できない。
これらの課題に対処するために,命令チューニングを用いて3つのMIEタスクを統合化するための統一マルチモーダル情報抽出器UMIEを提案し,テキストと視覚の両方の言及を効果的に抽出できる。
大規模な実験により、私たちのUMIEは6つのMIEデータセットで3つのタスクで様々な最先端(SoTA)メソッドより優れています。
さらに、深い分析により、UMIEのゼロショット設定における強い一般化、命令不変量に対する堅牢性、解釈可能性を示す。
本研究は,MIEモデルを統一化するための最初のステップとして機能し,MIEドメイン内の命令チューニングモデルと大規模言語モデルの両方を探索する。
私たちのコード、データ、モデルはhttps://github.com/zucc-ai/umieで利用可能です。
関連論文リスト
- RUIE: Retrieval-based Unified Information Extraction using Large Language Model [6.788855739199981]
統一された情報抽出は、単一のモデルまたはフレームワークを使用して全ての情報抽出タスクを完了することを目的としている。
本稿では,テキスト内学習を活用して迅速な一般化を実現するフレームワークRUIE(Retrieval-based Unified Information extract)を提案する。
8つのホールドアウトデータセットの実験結果から、未確認タスクを一般化するRUIEの有効性が示された。
論文 参考訳(メタデータ) (2024-09-18T03:20:04Z) - UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model [11.885204227946549]
統一表現を用いて様々なタスクを表現するために設計された包括的モデルを提案する。
本モデルは,ユーザ指示の暗黙的な意図を理解する上で,強力な能力を示す。
私たちのアプローチは、例外的なスケーラビリティと汎用性を示します。
論文 参考訳(メタデータ) (2024-08-05T14:27:39Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Multimodal Question Answering for Unified Information Extraction [15.798187192290746]
マルチモーダル情報抽出は、構造化されていないマルチメディアコンテンツから構造化された情報を抽出することを目的としている。
現在のMIEモデルはタスク固有でデータ集約である。
3つのMIEタスクを統合するための新しいマルチモーダル質問応答(MQA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:05Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - Universal Information Extraction with Meta-Pretrained Self-Retrieval [39.69130086395689]
ユニバーサル情報抽出(Universal IE)は、テキストから構造までの一様生成方法で異なる抽出タスクを解くことを目的としている。
外部知識ベースから知識を取得することは、モデルがこの問題を克服するのに役立つかもしれないが、様々なIEタスクに適した知識ベースを構築することは不可能である。
本稿では,PLMからタスク固有の知識を抽出し,汎用IEを強化するメタレトリバーを提案する。
論文 参考訳(メタデータ) (2023-06-18T00:16:00Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling
for Many-to-Many Multimodal Summarization [113.72253589338472]
many-to-many multimodal summarization (M$3$S) タスクは、どんな言語でも文書入力と対応する画像シーケンスで要約を生成することを目的としている。
本稿では,M$3$Sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-22T06:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。