論文の概要: With Limited Data for Multimodal Alignment, Let the STRUCTURE Guide You
- arxiv url: http://arxiv.org/abs/2506.16895v1
- Date: Fri, 20 Jun 2025 10:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.412305
- Title: With Limited Data for Multimodal Alignment, Let the STRUCTURE Guide You
- Title(参考訳): マルチモーダルアライメントのための制限付きデータで、構造をガイドする
- Authors: Fabian Gröger, Shuo Wen, Huyen Le, Maria Brbić,
- Abstract要約: マルチモーダルモデルは、アライメントを必要とする複雑なタスクにおいて強力な機能を示した。
既存のモデルは、通常、多くのドメインで得るのに費用がかかるか不可能な、ペア化されたサンプルに依存している。
そこで本研究では,単調エンコーダの潜伏空間を保存する効果的な正規化手法を提案する。
- 参考スコア(独自算出の注目度): 0.19285000127136376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal models have demonstrated powerful capabilities in complex tasks requiring multimodal alignment including zero-shot classification and cross-modal retrieval. However, existing models typically rely on millions of paired multimodal samples, which are prohibitively expensive or infeasible to obtain in many domains. In this work, we explore the feasibility of building multimodal models with limited amount of paired data by aligning pretrained unimodal foundation models. We show that high-quality alignment is possible with as few as tens of thousands of paired samples$\unicode{x2013}$less than $1\%$ of the data typically used in the field. To achieve this, we introduce STRUCTURE, an effective regularization technique that preserves the neighborhood geometry of the latent space of unimodal encoders. Additionally, we show that aligning last layers is often suboptimal and demonstrate the benefits of aligning the layers with the highest representational similarity across modalities. These two components can be readily incorporated into existing alignment methods, yielding substantial gains across 24 zero-shot image classification and retrieval benchmarks, with average relative improvement of $51.6\%$ in classification and $91.8\%$ in retrieval tasks. Our results highlight the effectiveness and broad applicability of our framework for limited-sample multimodal learning and offer a promising path forward for resource-constrained domains.
- Abstract(参考訳): マルチモーダルモデルは、ゼロショット分類やクロスモーダル検索を含むマルチモーダルアライメントを必要とする複雑なタスクにおいて強力な機能を示した。
しかし、既存のモデルは典型的には数百万対のマルチモーダルサンプルに依存しており、多くの領域で入手することは違法に高価または不可能である。
本研究では,事前学習した単調基礎モデルを整列させて,ペアデータ量に制限のあるマルチモーダルモデル構築の実現可能性について検討する。
高品質なアライメントは、典型的にはフィールドで使用されるデータの1\%以下で、数万のペア化されたサンプル$\unicode{x2013}$で可能であることを示す。
そこで本研究では,非モードエンコーダの潜伏空間の近傍形状を保存する効果的な正規化手法である構造を導入する。
さらに、最後のレイヤの整合性はしばしば最適以下であることが示され、各レイヤをモダリティの最も高い表現的類似性に整合させることの利点が示される。
これらの2つのコンポーネントは、既存のアライメント手法に簡単に組み込むことができ、ゼロショット画像分類と検索のベンチマークで、平均的相対的改善は51.6\%、検索タスクは91.8\%である。
本研究は,制限付きマルチモーダル学習におけるフレームワークの有効性と適用性を強調し,資源制約のあるドメインへの将来性を示すものである。
関連論文リスト
- Model alignment using inter-modal bridges [0.6906005491572401]
既存の方法は、広範なペアトレーニングデータを必要とするか、特定のドメインに制約される。
条件付きフローマッチングによるモデルアライメントのための半教師付きアプローチを提案する。
本手法は、最小限の監督を伴い、モーダル間モデルアライメントのためのデータ効率のよいソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-18T09:30:02Z) - Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well [23.460400679372714]
MultiCOSは、セグメンテーション性能を改善するために、多様なデータモダリティを効果的に活用する新しいフレームワークである。
BFSerは、実データと擬似データの両方で既存のマルチモーダルベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-20T11:49:50Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。