論文の概要: MOVER: Multimodal Optimal Transport with Volume-based Embedding Regularization
- arxiv url: http://arxiv.org/abs/2508.12149v1
- Date: Sat, 16 Aug 2025 20:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.589983
- Title: MOVER: Multimodal Optimal Transport with Volume-based Embedding Regularization
- Title(参考訳): MOVER:ボリュームベース埋め込み正規化によるマルチモーダル最適輸送
- Authors: Haochen You, Baojing Liu,
- Abstract要約: MOVERは、最適なトランスポートベースのソフトアライメントとボリュームベースの幾何正規化を組み合わせて意味的に整合した表現を構築する新しいフレームワークである。
テキスト・ビデオ・オーディオ検索タスクの実験では、MOVERはゼロショットと微調整の両方で最先端の手法を大幅に上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal learning have largely relied on pairwise contrastive objectives to align different modalities, such as text, video, and audio, in a shared embedding space. While effective in bi-modal setups, these approaches struggle to generalize across multiple modalities and often lack semantic structure in high-dimensional spaces. In this paper, we propose MOVER, a novel framework that combines optimal transport-based soft alignment with volume-based geometric regularization to build semantically aligned and structured multimodal representations. By integrating a transport-guided matching mechanism with a geometric volume minimization objective (GAVE), MOVER encourages consistent alignment across all modalities in a modality-agnostic manner. Experiments on text-video-audio retrieval tasks demonstrate that MOVER significantly outperforms prior state-of-the-art methods in both zero-shot and finetuned settings. Additional analysis shows improved generalization to unseen modality combinations and stronger structural consistency in the learned embedding space.
- Abstract(参考訳): マルチモーダル学習の最近の進歩は、テキスト、ビデオ、オーディオなど、異なるモダリティを共有埋め込み空間で整合させるために、一対の対照的な目的に大きく依存している。
バイモーダルなセットアップでは有効であるが、これらのアプローチは複数のモダリティをまたいだ一般化に苦慮し、高次元空間における意味的構造を欠いていることが多い。
本稿では, 最適輸送に基づくソフトアライメントとボリュームベースの幾何正規化を組み合わせた, セマンティックアライメントと構造化マルチモーダル表現を構築する新しいフレームワークMOVERを提案する。
輸送誘導整合機構を幾何体積最小化目標(GAVE)と統合することにより、MOVERはモジュラリティに依存しない方法で全てのモードを一貫した整合性を促進する。
テキスト・ビデオ・オーディオ検索タスクの実験では、MOVERはゼロショットと微調整の両方で最先端の手法を大幅に上回っている。
さらなる解析により、学習された埋め込み空間におけるモダリティ結合とより強い構造的整合性への一般化が改善された。
関連論文リスト
- Principled Multimodal Representation Learning [70.60542106731813]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - DFR: A Decompose-Fuse-Reconstruct Framework for Multi-Modal Few-Shot Segmentation [21.536784761515968]
DFR(Decompose, Fuse, Reconstruct)は、マルチモーダルガイダンスを数発のセグメンテーションで効果的に活用するという課題に対処する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-07-22T16:21:32Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - Continual Cross-Modal Generalization [48.56694158680082]
クロスモーダル一般化は、マルチモーダル対から共有表現空間を学ぶことを目的としている。
本稿では,新たなモダリティを仲介者モダリティを介して共有コードブックに漸進的にマッピングする連続学習手法を提案する。
画像-テキスト,音声-テキスト,ビデオ-テキスト,音声-テキストによる実験により,本手法は多種多様なモーダル一般化タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-04-01T09:16:20Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [68.20973671493203]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Gramian Multimodal Representation Learning and Alignment [5.793118803623239]
グラミアン表現アライメント尺度(GRAM)について紹介する。
GRAMは、モダリティ埋め込みが横たわる高次元空間において、$n$モダリティを学習し、アライメントする。
GRAMに基づく新しいコントラスト損失関数は、高次元埋め込み空間におけるマルチモーダルモデルのアライメントを高める。
論文 参考訳(メタデータ) (2024-12-16T16:41:51Z) - Submodular Framework for Structured-Sparse Optimal Transport [7.030105924295838]
非平衡最適輸送(UOT)は、非正規化対策の柔軟な枠組みとロバスト性により、近年注目を集めている。
本研究では,UOT設定における疎輸送計画の学習(構造化)について検討する。
本稿では,最近検討された平均誤差に基づく UOT を用いた新しい空間制約付き UOT の定式化を提案する。
論文 参考訳(メタデータ) (2024-06-07T13:11:04Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。