論文の概要: MCA: Modality Composition Awareness for Robust Composed Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2510.15543v1
- Date: Fri, 17 Oct 2025 11:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.591602
- Title: MCA: Modality Composition Awareness for Robust Composed Multimodal Retrieval
- Title(参考訳): MCA:ロバスト構成型マルチモーダル検索のためのモダリティ構成認識
- Authors: Qiyu Wu, Shuyang Cui, Satoshi Hayakawa, Wei-Yao Wang, Hiromi Wakaki, Yuki Mitsufuji,
- Abstract要約: MLLM(Multimodal large language model)は、入力を直接処理する統一エンコーダである。
フレキシブルで高度な一方で、従来のコントラスト学習で訓練された統一エンコーダは、モダリティのショートカットを学習しがちである。
この問題を軽減するためのモダリティ構成意識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.21875369884307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal retrieval, which seeks to retrieve relevant content across modalities such as text or image, supports applications from AI search to contents production. Despite the success of separate-encoder approaches like CLIP align modality-specific embeddings with contrastive learning, recent multimodal large language models (MLLMs) enable a unified encoder that directly processes composed inputs. While flexible and advanced, we identify that unified encoders trained with conventional contrastive learning are prone to learn modality shortcut, leading to poor robustness under distribution shifts. We propose a modality composition awareness framework to mitigate this issue. Concretely, a preference loss enforces multimodal embeddings to outperform their unimodal counterparts, while a composition regularization objective aligns multimodal embeddings with prototypes composed from its unimodal parts. These objectives explicitly model structural relationships between the composed representation and its unimodal counterparts. Experiments on various benchmarks show gains in out-of-distribution retrieval, highlighting modality composition awareness as a effective principle for robust composed multimodal retrieval when utilizing MLLMs as the unified encoder.
- Abstract(参考訳): テキストや画像などのモダリティにまたがる関連コンテンツを検索しようとするマルチモーダル検索は、AI検索からコンテンツ生成までのアプリケーションをサポートする。
CLIPのような分離エンコーダアプローチが成功しているにもかかわらず、最近のマルチモーダルな大規模言語モデル(MLLM)は、合成された入力を直接処理する統一エンコーダを可能にする。
フレキシブルで高度な一方で、従来のコントラスト学習で訓練された統一エンコーダは、モダリティショートカットを学習する傾向があり、分散シフト下ではロバスト性が低下する。
この問題を軽減するためのモダリティ構成意識フレームワークを提案する。
具体的には、選好損失は、多モーダル埋め込みを強制し、構成正規化目的は、その一モーダル部分からなるプロトタイプと、多モーダル埋め込みを整列させる。
これらの目的は、構成された表現とその単調な表現の間の構造的関係を明示的にモデル化する。
MLLMを統一エンコーダとして利用する場合, 様々なベンチマーク実験により, モダリティ構成認識をロバストな合成多重モーダル検索の有効な原理として強調した。
関連論文リスト
- NEXT: Multi-Grained Mixture of Experts via Text-Modulation for Multi-Modal Object Re-Identification [17.10113184019939]
ReID(Multi-modal object Re-Identification)は、不均一なモーダルをまたいだ正確な同一性を実現することを目的としている。
本稿では属性信頼度に基づく信頼性の高いキャプション生成パイプラインを提案する。
また,多様なIDパターンをモデル化するための新しいReIDフレームワークであるNEXTを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:52:28Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文 参考訳(メタデータ) (2025-03-25T09:09:30Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。