論文の概要: $M^3EL$: A Multi-task Multi-topic Dataset for Multi-modal Entity Linking
- arxiv url: http://arxiv.org/abs/2410.18096v1
- Date: Tue, 08 Oct 2024 10:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-27 05:41:05.879623
- Title: $M^3EL$: A Multi-task Multi-topic Dataset for Multi-modal Entity Linking
- Title(参考訳): M^3EL$:マルチモーダルエンティティリンクのためのマルチタスクマルチトピックデータセット
- Authors: Fang Wang, Shenglin Yin, Xiaoying Bai, Minghao Hu, Tianwei Yan, Yi Liang,
- Abstract要約: 我々はデータセット構築パイプラインを提案し、MELのための大規模データセットであるM3EL$を発行する。
M3EL$には79,625のインスタンスが含まれ、9つの多様なマルチモーダルタスクと5つのトピックが含まれている。
我々のデータセットはこれらの問題に効果的に対処し、$textitCLIP_textitND$モデルに$M3EL$を微調整すると精度が大幅に向上する。
- 参考スコア(独自算出の注目度): 11.334577756093923
- License:
- Abstract: Multi-modal Entity Linking (MEL) is a fundamental component for various downstream tasks. However, existing MEL datasets suffer from small scale, scarcity of topic types and limited coverage of tasks, making them incapable of effectively enhancing the entity linking capabilities of multi-modal models. To address these obstacles, we propose a dataset construction pipeline and publish $M^3EL$, a large-scale dataset for MEL. $M^3EL$ includes 79,625 instances, covering 9 diverse multi-modal tasks, and 5 different topics. In addition, to further improve the model's adaptability to multi-modal tasks, We propose a modality-augmented training strategy. Utilizing $M^3EL$ as a corpus, train the $\textit{CLIP}_{\textit{ND}}$ model based on $\textit{CLIP} (\textit{ViT}-\textit{B}-\textit{32})$, and conduct a comparative analysis with an existing multi-modal baselines. Experimental results show that the existing models perform far below expectations (ACC of 49.4%-75.8%), After analysis, it was obtained that small dataset sizes, insufficient modality task coverage, and limited topic diversity resulted in poor generalisation of multi-modal models. Our dataset effectively addresses these issues, and the $\textit{CLIP}_{\textit{ND}}$ model fine-tuned with $M^3EL$ shows a significant improvement in accuracy, with an average improvement of 9.3% to 25% across various tasks. Our dataset is available at https://anonymous.4open.science/r/M3EL.
- Abstract(参考訳): MEL(Multi-modal Entity Linking)は、さまざまな下流タスクの基本コンポーネントである。
しかし、既存のMELデータセットは、小さなスケール、トピックタイプの不足、タスクの限られたカバレッジに悩まされており、マルチモーダルモデルのエンティティリンク機能を効果的に強化することができない。
これらの障害に対処するために、データセット構築パイプラインを提案し、MEL用の大規模データセットである$M^3EL$を発行する。
M^3EL$は79,625のインスタンスを含み、9つの異なるマルチモーダルタスクと5つの異なるトピックをカバーしている。
さらに,マルチモーダルタスクに対するモデルの適応性をさらに向上するため,モダリティ強化型トレーニング戦略を提案する。
コーパスとして$M^3EL$を使用すると、$\textit{CLIP}_{\textit{ND}}$モデルで$\textit{CLIP} (\textit{ViT}-\textit{B}-\textit{32})$をトレーニングし、既存のマルチモーダルベースラインと比較分析を行う。
実験の結果、既存のモデルは予想よりはるかに低い結果(49.4%-75.8%)を示し、分析の結果、データセットのサイズが小さく、モダリティが不十分で、トピックの多様性が限られており、マルチモーダルモデルの一般化が不十分であることが判明した。
我々のデータセットはこれらの問題に効果的に対処し、$\textit{CLIP}_{\textit{ND}}$$M^3EL$で微調整されたモデルは、様々なタスクで平均9.3%から25%の精度で大幅に改善されている。
私たちのデータセットはhttps://anonymous.4open.science/r/M3ELで公開されています。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic
Segmentation [27.23513712371972]
簡単なマルチモーダル核融合機構を提案する。
また,マルチモーダル学習のためのマルチモーダル教師であるM3Lを提案する。
我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%の絶対的な改善を示す。
論文 参考訳(メタデータ) (2023-04-21T05:52:50Z) - Graph Neural Networks for Multimodal Single-Cell Data Integration [32.8390339109358]
本稿では,3つのタスクに対処するため,一般的なグラフニューラルネットワークフレームワークであるtextitscMoGNN$を提案する。
textitscMoGNN$は、最先端および従来のアプローチと比較して、3つのタスクで優れた結果を示す。
論文 参考訳(メタデータ) (2022-03-03T17:59:02Z) - M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks [94.80043324367858]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。
M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) (2021-09-09T13:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。