論文の概要: TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings
- arxiv url: http://arxiv.org/abs/2603.04772v1
- Date: Thu, 05 Mar 2026 03:43:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.05777
- Title: TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings
- Title(参考訳): TSEmbed: ユニバーサルマルチモーダル埋め込みにおけるタスクスケーリングのアンロック
- Authors: Yebo Wu, Feng Liu, Ziwei Xie, Zhiyuan Liu, Changwang Zhang, Jun Wang, Li Li,
- Abstract要約: TSEmbedは、Mixture-of-Experts (MoE)とLo-Rank Adaptation (LoRA)を相乗化する汎用マルチモーダル埋め込みフレームワークである。
本稿では、専門的なルーティング分布を意味的類似性のための固有のプロキシとして活用する新しい戦略であるEANS(Expert-Aware Negative Smpling)を紹介する。
- 参考スコア(独自算出の注目度): 26.532942920392376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the exceptional reasoning capabilities of Multimodal Large Language Models (MLLMs), their adaptation into universal embedding models is significantly impeded by task conflict. To address this, we propose TSEmbed, a universal multimodal embedding framework that synergizes Mixture-of-Experts (MoE) with Low-Rank Adaptation (LoRA) to explicitly disentangle conflicting task objectives. Moreover, we introduce Expert-Aware Negative Sampling (EANS), a novel strategy that leverages expert routing distributions as an intrinsic proxy for semantic similarity. By dynamically prioritizing informative hard negatives that share expert activation patterns with the query, EANS effectively sharpens the model's discriminative power and refines embedding boundaries. To ensure training stability, we further devise a two-stage learning paradigm that solidifies expert specialization before optimizing representations via EANS. TSEmbed achieves state-of-the-art performance on both the Massive Multimodal Embedding Benchmark (MMEB) and real-world industrial production datasets, laying a foundation for task-level scaling in universal multimodal embeddings.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の例外的な推論能力にもかかわらず、それらの普遍的な埋め込みモデルへの適応はタスクの衝突によって著しく阻害される。
そこで本研究では,Mixture-of-Experts (MoE) とLo-Rank Adaptation (LoRA) を併用して,競合するタスクの目的を明示的に分散させる,汎用なマルチモーダル埋め込みフレームワークであるTSEmbedを提案する。
さらに、専門的なルーティング分布を意味的類似性のための固有のプロキシとして活用する新しい戦略であるEANS(Expert-Aware Negative Smpling)を導入する。
クエリで専門家のアクティベーションパターンを共有する情報的強みを動的に優先順位付けすることで、EANSはモデルの識別力を効果的に強化し、埋め込みバウンダリを洗練します。
トレーニングの安定性を確保するため、EANSを介して表現を最適化する前に専門家の専門化を固める2段階の学習パラダイムを考案する。
TSEmbedは、MMEB(Massive Multimodal Embedding Benchmark)と実世界の産業生産データセットの両方で最先端のパフォーマンスを実現し、ユニバーサルなマルチモーダル埋め込みにおけるタスクレベルのスケーリングの基礎を築いた。
関連論文リスト
- Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings [44.77164359074224]
マルチモーダル大規模言語モデル(MLLM)は、ユニバーサル・マルチモーダル・エンベディング(UME)の進展に欠かせないものとなっている。
近年の研究では、生成的連鎖(CoT)推論を取り入れることで、タスク固有の表現が大幅に向上することが示されている。
本稿では,Embedder-Guided Reinforcement Learning (EG-RL)を統合した推論駆動型UMEフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-14T15:35:03Z) - Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model [49.65930977591188]
マルチモーダル埋め込みモデルは、多様なクロスモーダルタスクに力を与える情報的統一表現を提供することを目的としている。
SAIL-Embeddingはオムニモーダルな埋め込み基盤モデルで、これらの問題に適切なトレーニング戦略とアーキテクチャ設計を通して対処する。
具体的には、コンテンツ対応プログレッシブトレーニングは、さまざまな下流タスクへのモデルの適応性を高め、より豊かなクロスモーダル習熟度を習得することを目的としている。
協調型レコメンデーション強化トレーニングは、シークエンス・ツー・テムとID・ツー・テムの埋め込みから知識を抽出することにより、レコメンデーションシナリオのマルチモーダル表現をさらに適応させる。
論文 参考訳(メタデータ) (2025-10-14T16:43:22Z) - From Generator to Embedder: Harnessing Innate Abilities of Multimodal LLMs via Building Zero-Shot Discriminative Embedding Model [29.879983760203256]
MLLM(Multimodal Large Language Models)は、汎用的な埋め込みタスクのための有望なソリューションとして登場した。
しかし、その生成的性質を差別的表現学習に適用することは、依然として重要な課題である。
本稿では,2つの相乗的成分を中心としてギャップを埋める,普遍的マルチモーダル埋め込みのための効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-01T07:31:24Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [51.58020580970644]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - SimMMDG: A Simple and Effective Framework for Multi-modal Domain
Generalization [13.456240733175767]
SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。
我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。
本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
論文 参考訳(メタデータ) (2023-10-30T17:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。