論文の概要: SMA: Submodular Modality Aligner For Data Efficient Multimodal Learning
- arxiv url: http://arxiv.org/abs/2605.12872v1
- Date: Wed, 13 May 2026 01:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.749636
- Title: SMA: Submodular Modality Aligner For Data Efficient Multimodal Learning
- Title(参考訳): SMA:データ効率の良いマルチモーダル学習のためのサブモーダル・モダリティ・アグナー
- Authors: Truong Pham, Anay Majee, Rishabh Iyer,
- Abstract要約: 本稿では,集合としてエンティティの複数の拡張と記述を扱うemphSubmodular Modality Aligner(SMA)を紹介し,よりリッチなクロスモーダル構造を捉えるために,データの複数の記述を活用する。
CLIPベンチマークから14のゼロショット分類および検索タスクについてSMAを評価し,低データ方式における一貫した利得を示す。
- 参考スコア(独自算出の注目度): 3.9890357781493595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success of Multimodal Foundation Models (FMs), their reliance on massive paired datasets limits their applicability in low-data and rare-scenario settings where aligned data is scarce and expensive. A key bottleneck is the adoption of an instance-level formulation, which learns alignment by maximizing correlation between individual image-text pairs while neglecting the underlying geometric structure across modalities resulting in a modality gap across input modalities. In this paper, we propose a combinatorial paradigm for multimodal alignment that moves beyond pairwise learning and introduce the \emph{Submodular Modality Aligner (SMA)}, which treats multiple augmentations and descriptions of an entity as a set, leveraging multiple descriptions of the data to capture richer cross-modal structure. We instantiate SMA using a principled objective based on Submodular Mutual Information (SMI), which jointly maximizes inter-modality mutual information while reducing cross-modal divergence. This formulation enables the model to effectively utilize multiple positive associations and extract significantly more information from limited data. We evaluate SMA on 14 zero-shot classification and retrieval tasks from the CLIP benchmark and demonstrate consistent gains in the low-data regime. Notably, SMA achieves strong multimodal generalization using only tens of thousands of samples. This is orders of magnitude fewer than standard approaches. Our results highlight the importance of set-based formulations and submodular objectives for data-efficient multimodal learning.
- Abstract(参考訳): FM(Multimodal Foundation Models)の成功にもかかわらず、大規模なペアデータセットへの依存は、整列データが不足し高価である低データおよび希少なシナリオ設定における適用性を制限している。
重要なボトルネックはインスタンスレベルの定式化の導入であり、これは個々の画像とテキストのペア間の相関を最大化し、基礎となる幾何学的構造をモダリティにわたって無視し、入力モダリティ間のモダリティギャップを生じさせることによってアライメントを学習する。
本稿では,マルチモーダルアライメントのための組合せパラダイムを提案し,よりリッチなクロスモーダル構造を捉えるために,データの複数の記述を活用して,エンティティの複数の拡張と記述を集合として扱う「emph{Submodular Modality Aligner (SMA)」を紹介した。
サブモーダル・ミューチュアル・インフォメーション(SMI)に基づく原則的目的を用いてSMAをインスタンス化する。
この定式化により、モデルは複数の正の関連を効果的に利用し、限られたデータからはるかに多くの情報を抽出することができる。
CLIPベンチマークから14のゼロショット分類および検索タスクについてSMAを評価し,低データ方式における一貫した利得を示す。
特に、SMAは数万のサンプルだけで強力なマルチモーダル一般化を実現する。
これは、標準的なアプローチよりも桁違いに少ない。
本結果は,データ効率のよいマルチモーダル学習において,集合に基づく定式化とサブモジュラー目的の重要性を強調した。
関連論文リスト
- Multimodal Representation-disentangled Information Bottleneck for Multimodal Recommendation [36.338586087343806]
我々はMRdIB(Multimodal Representation-disentangled Information Bottleneck)という新しいフレームワークを提案する。
具体的には,まず,入力表現を圧縮するためにマルチモーダル・インフォメーション・ボトルネックを用いる。
そして,レコメンデーションターゲットとの関係に基づいて,情報をユニークで冗長な,シナジスティックなコンポーネントに分解する。
論文 参考訳(メタデータ) (2025-09-24T15:18:32Z) - MINT: Multimodal Instruction Tuning with Multimodal Interaction Grouping [28.653290360671175]
我々は,マルチモーダルインタラクションのタイプに基づいた,シンプルながら驚くほど効果的なタスクグループ化戦略であるMINTを紹介する。
提案手法は,マルチモーダル命令チューニングにおいて,既存のタスクグループ化ベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-06-02T22:55:23Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。