論文の概要: UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings
- arxiv url: http://arxiv.org/abs/2505.11815v1
- Date: Sat, 17 May 2025 03:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.866812
- Title: UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings
- Title(参考訳): UniMoCo:ロバストなマルチモード埋め込みのための統一されたモダリティ補完
- Authors: Jiajun Qin, Yuan Pu, Zhuolun He, Seunggeun Kim, David Z. Pan, Bei Yu,
- Abstract要約: マルチモーダル埋め込みタスク用に設計された視覚言語モデルアーキテクチャUniMoCoを提案する。
我々は,オリジナル入力とモダリティ完了入力の両方から埋め込みを整列させる特別なトレーニング戦略を開発する。
実験によると、UniMoCoは様々な設定で一貫性のあるロバスト性を示しながら、従来の手法よりも優れている。
- 参考スコア(独自算出の注目度): 9.344107676552408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current research has explored vision-language models for multi-modal embedding tasks, such as information retrieval, visual grounding, and classification. However, real-world scenarios often involve diverse modality combinations between queries and targets, such as text and image to text, text and image to text and image, and text to text and image. These diverse combinations pose significant challenges for existing models, as they struggle to align all modality combinations within a unified embedding space during training, which degrades performance at inference. To address this limitation, we propose UniMoCo, a novel vision-language model architecture designed for multi-modal embedding tasks. UniMoCo introduces a modality-completion module that generates visual features from textual inputs, ensuring modality completeness for both queries and targets. Additionally, we develop a specialized training strategy to align embeddings from both original and modality-completed inputs, ensuring consistency within the embedding space. This enables the model to robustly handle a wide range of modality combinations across embedding tasks. Experiments show that UniMoCo outperforms previous methods while demonstrating consistent robustness across diverse settings. More importantly, we identify and quantify the inherent bias in conventional approaches caused by imbalance of modality combinations in training data, which can be mitigated through our modality-completion paradigm. The code is available at https://github.com/HobbitQia/UniMoCo.
- Abstract(参考訳): 現在の研究では、情報検索、視覚的接地、分類などのマルチモーダル埋め込みタスクの視覚言語モデルについて検討している。
しかし、現実のシナリオは、テキストからテキストへのテキストや画像、テキストから画像へのテキストや画像、テキストや画像へのテキストのような、クエリとターゲット間の多様なモダリティの組み合わせを含むことが多い。
これらの多様な組み合わせは、トレーニング中にすべてのモダリティの組み合わせを統一的な埋め込み空間に整列させることに苦労するため、既存のモデルに重大な課題をもたらす。
この制限に対処するため、マルチモーダル埋め込みタスク用に設計された新しい視覚言語モデルアーキテクチャUniMoCoを提案する。
UniMoCoは、テキスト入力から視覚的特徴を生成するモダリティ補完モジュールを導入し、クエリとターゲットの両方に対してモダリティ完全性を保証する。
さらに,オリジナル入力とモダリティ完了入力の両方から埋め込みを整列させ,組込み空間内での整合性を確保するための特別なトレーニング戦略を開発する。
これにより、モデルが埋め込みタスクにまたがる幅広いモダリティの組み合わせを堅牢に扱うことができる。
実験によると、UniMoCoは様々な設定で一貫性のあるロバスト性を示しながら、従来の手法よりも優れている。
より重要なことは、トレーニングデータにおけるモダリティの組み合わせの不均衡に起因する従来のアプローチにおける固有のバイアスを特定し、定量化することであり、これは我々のモダリティ・コンプリートパラダイムによって緩和できる。
コードはhttps://github.com/HobbitQia/UniMoCoで入手できる。
関連論文リスト
- Everything is a Video: Unifying Modalities through Next-Frame Prediction [5.720266474212221]
自然言語処理(NLP)を超えて,タスク再構成の概念を多モーダル学習に拡張する新しいフレームワークを提案する。
本稿では,多様なマルチモーダルタスクを統一した次フレーム予測問題に再構成することを提案する。
提案手法は,テキスト・トゥ・テキスト,画像・トゥ・テキスト,ビデオ・トゥ・ビデオ,ビデオ・トゥ・テキスト,音声・トゥ・テキストなど,様々なタスクで評価される。
論文 参考訳(メタデータ) (2024-11-15T12:59:37Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。