論文の概要: Continual Cross-Modal Generalization
- arxiv url: http://arxiv.org/abs/2504.00561v1
- Date: Tue, 01 Apr 2025 09:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:59.546567
- Title: Continual Cross-Modal Generalization
- Title(参考訳): 連続的クロスモーダル一般化
- Authors: Yan Xia, Hai Huang, Minghui Fang, Zhou Zhao,
- Abstract要約: クロスモーダル一般化は、マルチモーダル対から共有表現空間を学ぶことを目的としている。
本稿では,新たなモダリティを仲介者モダリティを介して共有コードブックに漸進的にマッピングする連続学習手法を提案する。
画像-テキスト,音声-テキスト,ビデオ-テキスト,音声-テキストによる実験により,本手法は多種多様なモーダル一般化タスクにおいて高い性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 48.56694158680082
- License:
- Abstract: Cross-modal generalization aims to learn a shared discrete representation space from multimodal pairs, enabling knowledge transfer across unannotated modalities. However, achieving a unified representation for all modality pairs requires extensive paired data, which is often impractical. Inspired by the availability of abundant bimodal data (e.g., in ImageBind), we explore a continual learning approach that incrementally maps new modalities into a shared discrete codebook via a mediator modality. We propose the Continual Mixture of Experts Adapter (CMoE-Adapter) to project diverse modalities into a unified space while preserving prior knowledge. To align semantics across stages, we introduce a Pseudo-Modality Replay (PMR) mechanism with a dynamically expanding codebook, enabling the model to adaptively incorporate new modalities using learned ones as guidance. Extensive experiments on image-text, audio-text, video-text, and speech-text show that our method achieves strong performance on various cross-modal generalization tasks. Code is provided in the supplementary material.
- Abstract(参考訳): クロスモーダル一般化は、マルチモーダル対から共有された離散表現空間を学習することを目的としており、無意味なモダリティ間の知識伝達を可能にする。
しかしながら、すべてのモダリティ対に対する統一表現を達成するには、しばしば非現実的な広範なペアデータが必要である。
大量のバイモーダルデータ(例えば、ImageBind)が利用可能であることにインスパイアされた我々は、新たなモダリティを仲介者モダリティを介して共有された離散コードブックにインクリメンタルにマッピングする継続的学習アプローチを探求する。
本稿では,CMOE-Adapter(Continuous Mixture of Experts Adapter)を提案する。
そこで我々は,Pseudo-Modality Replay(PMR)機構を動的に拡張するコードブックに導入し,学習したモデルを用いて新たなモダリティを適応的に組み込むことを可能にする。
画像-テキスト,音声-テキスト,ビデオ-テキスト,音声-テキストの広汎な実験により,本手法は多種多様なモーダル一般化タスクにおいて高い性能を発揮することを示す。
コードは補足材料で提供される。
関連論文リスト
- Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Alt-MoE:A Scalable Framework for Bidirectional Multimodal Alignment and Efficient Knowledge Integration [6.928469290518152]
マルチモーダル学習は、共有潜在空間内で異なるモダリティを整列させることにより、著しく進歩した。
直接アライメントは、豊富なモダル内知識を十分に活用するのに苦労し、しばしばクロスモーダル表現を達成するために広範なトレーニングデータを必要とする。
Alt-MoEはスケーラブルなマルチモーダルアライメントフレームワークで、モダリティをまたいだ多方向コネクタとして専門家(MoE)モデルの混合を利用する。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - One-stage Modality Distillation for Incomplete Multimodal Learning [7.791488931628906]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。
提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-15T07:12:27Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。