論文の概要: SheafAlign: A Sheaf-theoretic Framework for Decentralized Multimodal Alignment
- arxiv url: http://arxiv.org/abs/2510.20540v1
- Date: Thu, 23 Oct 2025 13:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.938225
- Title: SheafAlign: A Sheaf-theoretic Framework for Decentralized Multimodal Alignment
- Title(参考訳): SheafAlign: 分散マルチモーダルアライメントのためのせん断理論フレームワーク
- Authors: Abdulmomen Ghalkha, Zhuojun Tian, Chaouki Ben Issaid, Mehdi Bennis,
- Abstract要約: SheafAlignは分散マルチモーダルアライメントのための層理論フレームワークである。
SheafAlignは、すべてのモダリティ間で相互冗長性を必要としないことで、以前のメソッドの制限を克服する。
マルチモーダルセンシングデータセットの実験は、ゼロショット一般化、クロスモーダルアライメント、および欠落モーダル性に対するロバスト性を示す。
- 参考スコア(独自算出の注目度): 23.996765202358223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional multimodal alignment methods assume mutual redundancy across all modalities, an assumption that fails in real-world distributed scenarios. We propose SheafAlign, a sheaf-theoretic framework for decentralized multimodal alignment that replaces single-space alignment with multiple comparison spaces. This approach models pairwise modality relations through sheaf structures and leverages decentralized contrastive learning-based objectives for training. SheafAlign overcomes the limitations of prior methods by not requiring mutual redundancy among all modalities, preserving both shared and unique information. Experiments on multimodal sensing datasets show superior zero-shot generalization, cross-modal alignment, and robustness to missing modalities, with 50\% lower communication cost than state-of-the-art baselines.
- Abstract(参考訳): 従来のマルチモーダルアライメント手法は、実世界の分散シナリオで失敗する仮定である全てのモダリティの相互冗長性を仮定する。
単空間アライメントを複数の比較空間に置き換える分散マルチモーダルアライメントのための層理論フレームワークであるSheafAlignを提案する。
このアプローチは、せん断構造を通してペアワイドなモダリティ関係をモデル化し、訓練のために分散化されたコントラスト学習に基づく目的を活用する。
SheafAlignは、すべてのモダリティ間の相互冗長性を必要とせず、共有情報とユニークな情報の両方を保存することによって、従来のメソッドの制限を克服する。
マルチモーダルセンシングデータセットの実験では、ゼロショットの一般化、クロスモーダルアライメント、モダリティの欠如に対する堅牢性が、最先端のベースラインよりも50%低い通信コストで示された。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Efficient Generalization via Multimodal Co-Training under Data Scarcity and Distribution Shift [0.6331016589903705]
マルチモーダルコトレーニングは、ラベル付きデータが制限された状況におけるモデル一般化を強化するように設計されている。
この枠組みの理論的基礎を考察し、ラベルなしデータの使用が一般化の著しい改善につながる条件を導出する。
我々は、初めてマルチモーダルなコトレーニングコンテキストにおいて、ラベルのないマルチモーダルデータを活用することで得られる利点を分解し、定量化する新しい一般化境界を確立する。
論文 参考訳(メタデータ) (2025-10-08T20:13:17Z) - Principled Multimodal Representation Learning [70.60542106731813]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [18.066105354135058]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。
CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。
テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文 参考訳(メタデータ) (2025-02-24T10:29:15Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。