論文の概要: $M^3EL$: A Multi-task Multi-topic Dataset for Multi-modal Entity Linking
- arxiv url: http://arxiv.org/abs/2410.18096v1
- Date: Tue, 08 Oct 2024 10:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-27 05:41:05.879623
- Title: $M^3EL$: A Multi-task Multi-topic Dataset for Multi-modal Entity Linking
- Title(参考訳): M^3EL$:マルチモーダルエンティティリンクのためのマルチタスクマルチトピックデータセット
- Authors: Fang Wang, Shenglin Yin, Xiaoying Bai, Minghao Hu, Tianwei Yan, Yi Liang,
- Abstract要約: 我々はデータセット構築パイプラインを提案し、MELのための大規模データセットであるM3EL$を発行する。
M3EL$には79,625のインスタンスが含まれ、9つの多様なマルチモーダルタスクと5つのトピックが含まれている。
我々のデータセットはこれらの問題に効果的に対処し、$textitCLIP_textitND$モデルに$M3EL$を微調整すると精度が大幅に向上する。
- 参考スコア(独自算出の注目度): 11.334577756093923
- License:
- Abstract: Multi-modal Entity Linking (MEL) is a fundamental component for various downstream tasks. However, existing MEL datasets suffer from small scale, scarcity of topic types and limited coverage of tasks, making them incapable of effectively enhancing the entity linking capabilities of multi-modal models. To address these obstacles, we propose a dataset construction pipeline and publish $M^3EL$, a large-scale dataset for MEL. $M^3EL$ includes 79,625 instances, covering 9 diverse multi-modal tasks, and 5 different topics. In addition, to further improve the model's adaptability to multi-modal tasks, We propose a modality-augmented training strategy. Utilizing $M^3EL$ as a corpus, train the $\textit{CLIP}_{\textit{ND}}$ model based on $\textit{CLIP} (\textit{ViT}-\textit{B}-\textit{32})$, and conduct a comparative analysis with an existing multi-modal baselines. Experimental results show that the existing models perform far below expectations (ACC of 49.4%-75.8%), After analysis, it was obtained that small dataset sizes, insufficient modality task coverage, and limited topic diversity resulted in poor generalisation of multi-modal models. Our dataset effectively addresses these issues, and the $\textit{CLIP}_{\textit{ND}}$ model fine-tuned with $M^3EL$ shows a significant improvement in accuracy, with an average improvement of 9.3% to 25% across various tasks. Our dataset is available at https://anonymous.4open.science/r/M3EL.
- Abstract(参考訳): MEL(Multi-modal Entity Linking)は、さまざまな下流タスクの基本コンポーネントである。
しかし、既存のMELデータセットは、小さなスケール、トピックタイプの不足、タスクの限られたカバレッジに悩まされており、マルチモーダルモデルのエンティティリンク機能を効果的に強化することができない。
これらの障害に対処するために、データセット構築パイプラインを提案し、MEL用の大規模データセットである$M^3EL$を発行する。
M^3EL$は79,625のインスタンスを含み、9つの異なるマルチモーダルタスクと5つの異なるトピックをカバーしている。
さらに,マルチモーダルタスクに対するモデルの適応性をさらに向上するため,モダリティ強化型トレーニング戦略を提案する。
コーパスとして$M^3EL$を使用すると、$\textit{CLIP}_{\textit{ND}}$モデルで$\textit{CLIP} (\textit{ViT}-\textit{B}-\textit{32})$をトレーニングし、既存のマルチモーダルベースラインと比較分析を行う。
実験の結果、既存のモデルは予想よりはるかに低い結果(49.4%-75.8%)を示し、分析の結果、データセットのサイズが小さく、モダリティが不十分で、トピックの多様性が限られており、マルチモーダルモデルの一般化が不十分であることが判明した。
我々のデータセットはこれらの問題に効果的に対処し、$\textit{CLIP}_{\textit{ND}}$$M^3EL$で微調整されたモデルは、様々なタスクで平均9.3%から25%の精度で大幅に改善されている。
私たちのデータセットはhttps://anonymous.4open.science/r/M3ELで公開されています。
関連論文リスト
- MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - M$^{3}$D: A Multimodal, Multilingual and Multitask Dataset for Grounded Document-level Information Extraction [36.506500653677364]
我々はM$3$Dというマルチモーダル多言語マルチタスクデータセットを構築した。
ペア化された文書レベルのテキストとビデオを含み、マルチモーダル情報を豊かにする。
広く使われている2つの言語、すなわち英語と中国語をサポートしている。
論文 参考訳(メタデータ) (2024-12-05T10:00:58Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [64.61315565501681]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Graph Neural Networks for Multimodal Single-Cell Data Integration [32.8390339109358]
本稿では,3つのタスクに対処するため,一般的なグラフニューラルネットワークフレームワークであるtextitscMoGNN$を提案する。
textitscMoGNN$は、最先端および従来のアプローチと比較して、3つのタスクで優れた結果を示す。
論文 参考訳(メタデータ) (2022-03-03T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。