Fugu-MT 論文翻訳(概要): $M^3EL$: A Multi-task Multi-topic Dataset for Multi-modal Entity Linking

論文の概要: $M^3EL$: A Multi-task Multi-topic Dataset for Multi-modal Entity Linking

arxiv url: http://arxiv.org/abs/2410.18096v1
Date: Tue, 08 Oct 2024 10:52:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.579329
Title: $M^3EL$: A Multi-task Multi-topic Dataset for Multi-modal Entity Linking
Title（参考訳）: M^3EL$:マルチモーダルエンティティリンクのためのマルチタスクマルチトピックデータセット
Authors: Fang Wang, Shenglin Yin, Xiaoying Bai, Minghao Hu, Tianwei Yan, Yi Liang,
Abstract要約: 我々はデータセット構築パイプラインを提案し、MELのための大規模データセットであるM3EL$を発行する。 M3EL$には79,625のインスタンスが含まれ、9つの多様なマルチモーダルタスクと5つのトピックが含まれている。我々のデータセットはこれらの問題に効果的に対処し、$textitCLIP_textitND$モデルに$M3EL$を微調整すると精度が大幅に向上する。
参考スコア（独自算出の注目度）: 11.334577756093923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal Entity Linking (MEL) is a fundamental component for various downstream tasks. However, existing MEL datasets suffer from small scale, scarcity of topic types and limited coverage of tasks, making them incapable of effectively enhancing the entity linking capabilities of multi-modal models. To address these obstacles, we propose a dataset construction pipeline and publish $M^3EL$, a large-scale dataset for MEL. $M^3EL$ includes 79,625 instances, covering 9 diverse multi-modal tasks, and 5 different topics. In addition, to further improve the model's adaptability to multi-modal tasks, We propose a modality-augmented training strategy. Utilizing $M^3EL$ as a corpus, train the $\textit{CLIP}_{\textit{ND}}$ model based on $\textit{CLIP} (\textit{ViT}-\textit{B}-\textit{32})$, and conduct a comparative analysis with an existing multi-modal baselines. Experimental results show that the existing models perform far below expectations (ACC of 49.4%-75.8%), After analysis, it was obtained that small dataset sizes, insufficient modality task coverage, and limited topic diversity resulted in poor generalisation of multi-modal models. Our dataset effectively addresses these issues, and the $\textit{CLIP}_{\textit{ND}}$ model fine-tuned with $M^3EL$ shows a significant improvement in accuracy, with an average improvement of 9.3% to 25% across various tasks. Our dataset is available at https://anonymous.4open.science/r/M3EL.
Abstract（参考訳）: MEL(Multi-modal Entity Linking)は、さまざまな下流タスクの基本コンポーネントである。しかし、既存のMELデータセットは、小さなスケール、トピックタイプの不足、タスクの限られたカバレッジに悩まされており、マルチモーダルモデルのエンティティリンク機能を効果的に強化することができない。これらの障害に対処するために、データセット構築パイプラインを提案し、MEL用の大規模データセットである$M^3EL$を発行する。 M^3EL$は79,625のインスタンスを含み、9つの異なるマルチモーダルタスクと5つの異なるトピックをカバーしている。さらに,マルチモーダルタスクに対するモデルの適応性をさらに向上するため,モダリティ強化型トレーニング戦略を提案する。コーパスとして$M^3EL$を使用すると、$\textit{CLIP}_{\textit{ND}}$モデルで$\textit{CLIP} (\textit{ViT}-\textit{B}-\textit{32})$をトレーニングし、既存のマルチモーダルベースラインと比較分析を行う。実験の結果、既存のモデルは予想よりはるかに低い結果(49.4%-75.8%)を示し、分析の結果、データセットのサイズが小さく、モダリティが不十分で、トピックの多様性が限られており、マルチモーダルモデルの一般化が不十分であることが判明した。我々のデータセットはこれらの問題に効果的に対処し、$\textit{CLIP}_{\textit{ND}}$$M^3EL$で微調整されたモデルは、様々なタスクで平均9.3%から25%の精度で大幅に改善されている。私たちのデータセットはhttps://anonymous.4open.science/r/M3ELで公開されています。

関連論文リスト

MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。 MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文参考訳（メタデータ） (2024-12-27T02:39:50Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
M$^{3}$D: A Multimodal, Multilingual and Multitask Dataset for Grounded Document-level Information Extraction [36.506500653677364]
我々はM$3$Dというマルチモーダル多言語マルチタスクデータセットを構築した。ペア化された文書レベルのテキストとビデオを含み、マルチモーダル情報を豊かにする。広く使われている2つの言語、すなわち英語と中国語をサポートしている。
論文参考訳（メタデータ） (2024-12-05T10:00:58Z)
Multi-modal Retrieval Augmented Multi-modal Generation: A Benchmark, Evaluate Metrics and Strong Baselines [63.427721165404634]
本稿では,マルチモーダル検索拡張マルチモーダル生成(M$2$RAG)の興味深い課題について検討する。このタスクでは,複数モーダルなWebページを閲覧し,テキストと画像が混在し,ユーザクエリを解決するためのマルチモーダルな応答を生成するための基礎モデルが必要である。我々は,M$2$RAGタスクのベンチマークを構築し,既存の基礎モデルの能力を分析するために,テキストモーダルメトリクスとマルチモーダルメトリクスのセットを備える。
論文参考訳（メタデータ） (2024-11-25T13:20:19Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文参考訳（メタデータ） (2024-03-11T01:07:36Z)
Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。 TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文参考訳（メタデータ） (2024-01-20T04:46:43Z)
Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-10-08T10:47:24Z)
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか? 彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文参考訳（メタデータ） (2023-06-15T06:45:46Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic Segmentation [27.23513712371972]
簡単なマルチモーダル核融合機構を提案する。また,マルチモーダル学習のためのマルチモーダル教師であるM3Lを提案する。我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%の絶対的な改善を示す。
論文参考訳（メタデータ） (2023-04-21T05:52:50Z)
Graph Neural Networks for Multimodal Single-Cell Data Integration [32.8390339109358]
本稿では,3つのタスクに対処するため,一般的なグラフニューラルネットワークフレームワークであるtextitscMoGNN$を提案する。 textitscMoGNN$は、最先端および従来のアプローチと比較して、3つのタスクで優れた結果を示す。
論文参考訳（メタデータ） (2022-03-03T17:59:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。