論文の概要: M$^{3}$D: A Multimodal, Multilingual and Multitask Dataset for Grounded Document-level Information Extraction
- arxiv url: http://arxiv.org/abs/2412.04026v2
- Date: Sun, 15 Dec 2024 03:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:02.400009
- Title: M$^{3}$D: A Multimodal, Multilingual and Multitask Dataset for Grounded Document-level Information Extraction
- Title(参考訳): M$^{3}$D:グラウンドド文書レベルの情報抽出のためのマルチモーダル・マルチ言語・マルチタスクデータセット
- Authors: Jiang Liu, Bobo Li, Xinran Yang, Na Yang, Hao Fei, Mingyao Zhang, Fei Li, Donghong Ji,
- Abstract要約: 我々はM$3$Dというマルチモーダル多言語マルチタスクデータセットを構築した。
ペア化された文書レベルのテキストとビデオを含み、マルチモーダル情報を豊かにする。
広く使われている2つの言語、すなわち英語と中国語をサポートしている。
- 参考スコア(独自算出の注目度): 36.506500653677364
- License:
- Abstract: Multimodal information extraction (IE) tasks have attracted increasing attention because many studies have shown that multimodal information benefits text information extraction. However, existing multimodal IE datasets mainly focus on sentence-level image-facilitated IE in English text, and pay little attention to video-based multimodal IE and fine-grained visual grounding. Therefore, in order to promote the development of multimodal IE, we constructed a multimodal multilingual multitask dataset, named M$^{3}$D, which has the following features: (1) It contains paired document-level text and video to enrich multimodal information; (2) It supports two widely-used languages, namely English and Chinese; (3) It includes more multimodal IE tasks such as entity recognition, entity chain extraction, relation extraction and visual grounding. In addition, our dataset introduces an unexplored theme, i.e., biography, enriching the domains of multimodal IE resources. To establish a benchmark for our dataset, we propose an innovative hierarchical multimodal IE model. This model effectively leverages and integrates multimodal information through a Denoised Feature Fusion Module (DFFM). Furthermore, in non-ideal scenarios, modal information is often incomplete. Thus, we designed a Missing Modality Construction Module (MMCM) to alleviate the issues caused by missing modalities. Our model achieved an average performance of 53.80% and 53.77% on four tasks in English and Chinese datasets, respectively, which set a reasonable standard for subsequent research. In addition, we conducted more analytical experiments to verify the effectiveness of our proposed module. We believe that our work can promote the development of the field of multimodal IE.
- Abstract(参考訳): マルチモーダル情報抽出(IE)タスクは、多モーダル情報がテキスト情報抽出に有効であることを多くの研究が示しているため、注目を集めている。
しかし、既存のマルチモーダルIEデータセットは、主に英語の文レベルで画像に精通したIEに焦点を当てており、ビデオベースのマルチモーダルIEときめ細かいビジュアルグラウンドにはほとんど注意を払わない。
そこで我々は,マルチモーダルIEの開発を促進するために,M$^{3}$Dというマルチモーダルなマルチモーダルなマルチタスクデータセットを構築した。(1)文書レベルのテキストとビデオを組み合わせてマルチモーダル情報を充実させる,(2)英語と中国語という2つの広く使われている言語をサポートする,(3)エンティティ認識,エンティティチェーン抽出,関係抽出,視覚的接地といった,より多モーダルなIEタスクを含む。
さらに,本データセットでは,マルチモーダルIEリソースの領域を充実させる,未探索のテーマ,すなわち伝記を紹介する。
データセットのベンチマークを確立するために,革新的な階層型マルチモーダルIEモデルを提案する。
このモデルは、Denoized Feature Fusion Module (DFFM)を通して、マルチモーダル情報を効果的に活用し、統合する。
さらに、非イデアルなシナリオでは、モーダル情報はしばしば不完全である。
そこで我々は、欠落モード構築モジュール(MMCM)を設計し、欠落モードによる問題を緩和した。
我々のモデルは、それぞれ英語と中国語のデータセットの4つのタスクで平均53.80%と53.77%のパフォーマンスを達成した。
さらに,提案モジュールの有効性を検証するため,より解析的な実験を行った。
我々は、マルチモーダルIEの分野の発展を促進することができると信じている。
関連論文リスト
- Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - GroundingGPT:Language Enhanced Multi-modal Grounding Model [15.44099961048236]
言語拡張型マルチモーダルグラウンドモデルである GroundingGPT を提案する。
提案モデルでは,入力中の局所情報の詳細な理解を求めるタスクを抽出する。
ビデオ内の画像や瞬間における特定の領域の正確な識別と位置決定を示す。
論文 参考訳(メタデータ) (2024-01-11T17:41:57Z) - UMIE: Unified Multimodal Information Extraction with Instruction Tuning [12.777967562175437]
命令チューニングを用いた生成問題として、3つのMIEタスクを統一する統合マルチモーダル情報抽出器UMIEを提案する。
大規模な実験により、私たちのUMIEは6つのMIEデータセットで3つのタスクで様々な最先端(SoTA)メソッドより優れています。
本研究は,MIEモデルを統一化するための最初のステップとして機能し,MIEドメイン内の命令チューニングモデルと大規模言語モデルの両方を探索する。
論文 参考訳(メタデータ) (2024-01-05T22:52:15Z) - MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained
Semantic Classes and Hard Negative Entities [25.059177235004952]
本稿では,マルチモーダル・エンティティ・セット・エクスパンジョン(MESE)を提案する。
4つのマルチモーダル事前学習タスクで事前学習を行う強力なマルチモーダルモデルであるMultiExpanを提案する。
MESEDデータセットは、大規模かつ精巧な手動キャリブレーションを備えたESEのための最初のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2023-07-27T14:09:59Z) - D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling
for Many-to-Many Multimodal Summarization [113.72253589338472]
many-to-many multimodal summarization (M$3$S) タスクは、どんな言語でも文書入力と対応する画像シーケンスで要約を生成することを目的としている。
本稿では,M$3$Sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-22T06:47:35Z) - Large Scale Multi-Lingual Multi-Modal Summarization Dataset [26.92121230628835]
現在最大の多言語マルチモーダル要約データセット(M3LS)を提示する。
それは100万以上のドキュメントイメージペアのインスタンスと、それぞれに専門的な注釈付きマルチモーダル要約で構成されています。
また、13言語に対する最大の要約データセットであり、2言語に対する言語間要約データで構成されている。
論文 参考訳(メタデータ) (2023-02-13T18:00:23Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。