論文の概要: GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2412.16855v1
- Date: Sun, 22 Dec 2024 04:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:28.893726
- Title: GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
- Title(参考訳): GME:マルチモーダルLLMによるユニバーサルマルチモーダル検索の改善
- Authors: Xin Zhang, Yanzhao Zhang, Wen Xie, Mingxin Li, Ziqi Dai, Dingkun Long, Pengjun Xie, Meishan Zhang, Wenjie Li, Min Zhang,
- Abstract要約: Universal Multimodal Retrieval (UMR) は、統一モデルを用いて様々なモダリティを探索することを目的としている。
これまで、テキストデータのみを用いてUMRを実現するためにMLLM(Multimodal large language model)を採用してきた。
- 参考スコア(独自算出の注目度): 43.457928045291915
- License:
- Abstract: Universal Multimodal Retrieval (UMR) aims to enable search across various modalities using a unified model, where queries and candidates can consist of pure text, images, or a combination of both. Previous work has attempted to adopt multimodal large language models (MLLMs) to realize UMR using only text data. However, our preliminary experiments demonstrate that more diverse multimodal training data can further unlock the potential of MLLMs. Despite its effectiveness, the existing multimodal training data is highly imbalanced in terms of modality, which motivates us to develop a training data synthesis pipeline and construct a large-scale, high-quality fused-modal training dataset. Based on the synthetic training data, we develop the General Multimodal Embedder (GME), an MLLM-based dense retriever designed for UMR. Furthermore, we construct a comprehensive UMR Benchmark (UMRB) to evaluate the effectiveness of our approach. Experimental results show that our method achieves state-of-the-art performance among existing UMR methods. Last, we provide in-depth analyses of model scaling, training strategies, and perform ablation studies on both the model and synthetic data.
- Abstract(参考訳): UMR(Universal Multimodal Retrieval)は、クエリと候補が純粋なテキスト、画像、あるいは両方の組み合わせで構成できる統一モデルを用いて、様々なモダリティを探索可能にすることを目的としている。
これまで、テキストデータのみを用いてUMRを実現するためにMLLM(Multimodal large language model)を採用してきた。
しかし、予備実験により、より多様なマルチモーダルトレーニングデータがMLLMの可能性をさらに解き放つことが実証された。
その効果にもかかわらず、既存のマルチモーダルトレーニングデータは、モダリティの観点から非常に不均衡であり、トレーニングデータ合成パイプラインを開発し、大規模で高品質な融合モーダルトレーニングデータセットを構築する動機となる。
総合マルチモーダル・エンベッドダー(General Multimodal Embedder, GME)は, MLLMをベースとしたUMR用高密度レトリバーである。
さらに,本手法の有効性を評価するための総合的UMRベンチマーク(UMRB)を構築した。
実験結果から,既存のUMR法における最先端性能が得られた。
最後に、モデルスケーリング、トレーニング戦略の詳細な分析を行い、モデルと合成データの両方についてアブレーション研究を行う。
関連論文リスト
- FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Federated Multi-Task Learning on Non-IID Data Silos: An Experimental Study [17.555311732095483]
FMTLアプローチは、フェデレートラーニング(FL)とマルチタスクラーニング(MTL)の利点を統合する
本稿では,FMTLパラダイムの体系的評価のための新しいフレームワークFMTL-Benchを紹介する。
論文 参考訳(メタデータ) (2024-02-20T10:13:44Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。