論文の概要: RePercENT: Scaling Disentangled Representation Learning Beyond Two Modalities
- arxiv url: http://arxiv.org/abs/2606.05109v1
- Date: Wed, 03 Jun 2026 17:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.920062
- Title: RePercENT: Scaling Disentangled Representation Learning Beyond Two Modalities
- Title(参考訳): RePercent: 2つのモダリティを越えて、分散表現学習をスケールする
- Authors: Vasiliki Rizou, Pascal Frossard, Dorina Thanou,
- Abstract要約: RePercENTは、2つのモダリティを超えて、スケーラブルなペアワイズ・アンタングルをアンロックするように設計された、自己管理型のフレームワークである。
提案手法は, 事前抽出した埋め込みを直接操作し, 広範囲なジョイント・プレトレーニングの必要性を解消する。
さまざまなモダリティやタスクにわたって、RePercENTは、競合性能を維持しながら、アンタングルされたコンポーネントの回復に成功した。
- 参考スコア(独自算出の注目度): 34.35941675436447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To leverage the full potential of multimodal data, we need representations that go beyond the state-of-the-art alignment and fusion approaches and exploit all cross-modal interactions without sacrificing modality-specific information. Learning disentangled representations is a principled way to identify these underlying shared and unique factors that are hidden in observational data. However, while multimodal disentanglement is a compelling paradigm, existing methods are largely confined to the two-modality regime due to its inherent scalability bottleneck. To address this, we propose RePercENT, a self-supervised framework designed to surpass these limitations and unlocks scalable pairwise disentanglement beyond two modalities. Through a multimodal `plug-and-play' architecture, our approach operates directly on pre-extracted embeddings, eliminating the need for extensive joint pre-training while making no assumptions regarding the underlying modalities or foundation model backbones. Moreover, we introduce a joint optimization objective for simultaneously deriving the shared and unique components, and provide formal theoretical guarantees that characterize the optimality of our solution. Across diverse modalities and tasks, RePercENT successfully recovers disentangled components while maintaining competitive performance and significantly reducing computational complexity.
- Abstract(参考訳): マルチモーダルデータの潜在能力を最大限に活用するためには、最先端のアライメントや融合アプローチを超えて、モーダル固有の情報を犠牲にすることなく、すべてのモーダル間相互作用を利用する表現が必要である。
不整合表現の学習は、観測データに隠されたこれらの基本的共有要因とユニークな要因を特定するための原則化された方法である。
しかし,マルチモーダルな絡み合いは魅力的なパラダイムであるが,既存の手法は本質的にスケーラビリティのボトルネックのため,主に2モーダルな状態に限られている。
これを解決するために、これらの制限を克服し、2つのモダリティを超えてスケーラブルなペアワイズ・アンタングルをアンロックする自己教師型フレームワークであるRePercENTを提案する。
マルチモーダルな ‘plug-and-play’ アーキテクチャを通じて,提案手法は事前抽出した埋め込みを直接操作し,基礎となるモダリティや基礎モデルバックボーンを仮定することなく,広範囲のジョイント事前学習の必要性を解消する。
さらに,共有成分と一意成分を同時に導出するための共同最適化目標を導入し,解の最適性を特徴付ける公式な理論的保証を提供する。
さまざまなモダリティやタスクにわたって、RePercENTは競合性能を維持し、計算複雑性を著しく低減しながら、アンタングルコンポーネントの回復に成功している。
関連論文リスト
- Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations [4.67724003380452]
マルチモーダル学習は異種情報源からの情報を統合することを目的としており、そこでは信号はモダリティ間で共有され、個々のモダリティに特有であり、相互作用を通してのみ現れる。
自己教師型マルチモーダルコントラスト学習は目覚ましい進歩を遂げてきたが、既存の手法のほとんどは冗長なクロスモーダル信号を捉え、しばしばモダリティ固有の(一意的な)情報や相互作用駆動の(シネルジスティックな)情報を無視している。
最近の拡張は、この視点を広げるが、それらは相乗的相互作用を明示的にモデル化したり、異なる情報コンポーネントを絡み合った方法で学習することに失敗し、不完全な表現と潜在的な情報漏洩につながる。
基本的枠組みである textbfCOrAL を導入する。
論文 参考訳(メタデータ) (2026-02-16T18:06:53Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。
これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文 参考訳(メタデータ) (2024-03-08T09:16:47Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - One-stage Modality Distillation for Incomplete Multimodal Learning [6.93254775445168]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。
提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-15T07:12:27Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。