論文の概要: mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data
- arxiv url: http://arxiv.org/abs/2502.08468v1
- Date: Wed, 12 Feb 2025 15:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:51:08.573239
- Title: mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data
- Title(参考訳): mmE5: 高品質な合成データによるマルチモーダル多言語埋め込みの改善
- Authors: Haonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou,
- Abstract要約: マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
- 参考スコア(独自算出の注目度): 71.352883755806
- License:
- Abstract: Multimodal embedding models have gained significant attention for their ability to map data from different modalities, such as text and images, into a unified representation space. However, the limited labeled multimodal data often hinders embedding performance. Recent approaches have leveraged data synthesis to address this problem, yet the quality of synthetic data remains a critical bottleneck. In this work, we identify three criteria for high-quality synthetic multimodal data. First, broad scope ensures that the generated data covers diverse tasks and modalities, making it applicable to various downstream scenarios. Second, robust cross-modal alignment makes different modalities semantically consistent. Third, high fidelity ensures that the synthetic data maintains realistic details to enhance its reliability. Guided by these principles, we synthesize datasets that: (1) cover a wide range of tasks, modality combinations, and languages, (2) are generated via a deep thinking process within a single pass of a multimodal large language model, and (3) incorporate real-world images with accurate and relevant texts, ensuring fidelity through self-evaluation and refinement. Leveraging these high-quality synthetic and labeled datasets, we train a multimodal multilingual E5 model mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art performance on the MMEB Benchmark and superior multilingual performance on the XTD benchmark. Our codes, datasets and models are released in https://github.com/haon-chen/mmE5.
- Abstract(参考訳): マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重要なボトルネックである。
本研究では,高品質な合成マルチモーダルデータの3つの基準を同定する。
ひとつは、生成されたデータがさまざまなタスクやモダリティをカバーすることを保証することだ。
第二に、ロバストなクロスモーダルアライメントは、意味的に異なるモーダル性を実現する。
第3に、高い忠実さは、合成データが信頼性を高めるために現実的な詳細を維持することを保証する。
これらの原則により,(1)タスク,モダリティの組み合わせ,および言語を幅広くカバーし,(2)多モーダルな大言語モデルの単一パス内で深い思考プロセスを通じて生成され,(3)実世界のイメージを正確かつ関連するテキストに組み込むことにより,自己評価と改善による忠実性を確保する。
これらの高品質な合成およびラベル付きデータセットを活用して、マルチモーダルな多言語E5モデルmmE5を訓練する。
広範囲な実験により,MMEBベンチマークにおけるmE5の最先端性能と,XTDベンチマークにおける優れた多言語性能が示された。
私たちのコード、データセット、モデルはhttps://github.com/haon-chen/mmE5.orgでリリースされています。
関連論文リスト
- Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation [79.71072337496351]
CoSynは、合成テキストリッチマルチモーダルデータを作成するフレームワークである。
高品質な命令チューニングデータを生成することができる。
また、合成ポインティングデータを生成し、視覚言語モデルで入力画像内の情報をグラウンドできる。
論文 参考訳(メタデータ) (2025-02-20T18:55:30Z) - Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [35.85909368345219]
大規模マルチモーダル命令データセットであるInfinity-MMを導入する。
統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。
タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T09:03:48Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Semantic-Aware Representation of Multi-Modal Data for Data Ingress: A Literature Review [1.8590097948961688]
LLM(Large Language Models)のような生成AIは、テキスト、画像、オーディオ、ビデオなどのマルチモーダルデータを処理するために広く採用されている。
このデータを効率的に管理することは、データ量が2倍にならないため、業界倍の課題となっている。
本研究では,モノモーダル,マルチモーダル,クロスモーダルデータから埋め込みを抽出するセマンティック・アウェア技術に着目した。
論文 参考訳(メタデータ) (2024-07-17T09:49:11Z) - Training on Synthetic Data Beats Real Data in Multimodal Relation
Extraction [8.038421100401132]
本稿では,テキストや画像などの一意的なデータのみをトレーニング中に利用できるような,新たな問題設定について考察する。
我々は,実マルチモーダルテストデータ上で良好に動作する合成データから,マルチモーダル関係を訓練することを目指している。
完全合成画像で訓練された最良のモデルは、F1の3.76%のマージンで、実際のマルチモーダルデータで訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-05T08:11:34Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks [94.80043324367858]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。
M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) (2021-09-09T13:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。