論文の概要: When Gradient Optimization Is Not Enough: $\dagger$ Dispersive and Anchoring Geometric Regularizer for Multimodal Learning
- arxiv url: http://arxiv.org/abs/2601.21670v1
- Date: Thu, 29 Jan 2026 13:03:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.833671
- Title: When Gradient Optimization Is Not Enough: $\dagger$ Dispersive and Anchoring Geometric Regularizer for Multimodal Learning
- Title(参考訳): 勾配最適化が十分でないとき:$\dagger$分散および多モード学習のための幾何正規化器のアンコリング
- Authors: Zixuan Xia, Hao Wang, Pengcheng Weng, Yanyu Qian, Yangxin Xu, William Dan, Fei Wang,
- Abstract要約: 我々は,表現幾何学をマルチモーダル学習において欠落する制御軸として認識し,軽量な幾何認識正規化フレームワークであるregNameを提案する。
regNameは、表現の多様性を促進するモード内分散正規化と、厳密なアライメントなしでサンプルレベルのクロスモーダルドリフトを束縛するモード間アンカー正規化の2つの補完的制約を施行する。
複数のマルチモーダルベンチマークによる実験では、マルチモーダルとユニモーダルの両方のパフォーマンスが一貫した改善を示し、表現幾何学の明示的な制御がモダリティトレードオフを効果的に緩和することを示した。
- 参考スコア(独自算出の注目度): 7.598111859541752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning aims to integrate complementary information from heterogeneous modalities, yet strong optimization alone does not guaranty well-structured representations. Even under carefully balanced training schemes, multimodal models often exhibit geometric pathologies, including intra-modal representation collapse and sample-level cross-modal inconsistency, which degrade both unimodal robustness and multimodal fusion. We identify representation geometry as a missing control axis in multimodal learning and propose \regName, a lightweight geometry-aware regularization framework. \regName enforces two complementary constraints on intermediate embeddings: an intra-modal dispersive regularization that promotes representation diversity, and an inter-modal anchoring regularization that bounds sample-level cross-modal drift without rigid alignment. The proposed regularizer is plug-and-play, requires no architectural modifications, and is compatible with various training paradigms. Extensive experiments across multiple multimodal benchmarks demonstrate consistent improvements in both multimodal and unimodal performance, showing that explicitly regulating representation geometry effectively mitigates modality trade-offs.
- Abstract(参考訳): マルチモーダル学習は異質なモダリティから補完的な情報を統合することを目的としているが、強い最適化だけでは十分に構造化された表現は得られない。
慎重にバランスのとれたトレーニングスキームの下でも、マルチモーダルモデルは、モダル内表現崩壊やサンプルレベルのクロスモーダル不整合などの幾何学的病理を示し、非モダルロバスト性とマルチモーダル融合の両方を低下させる。
表現幾何学をマルチモーダル学習において欠落する制御軸として認識し,軽量な幾何認識正規化フレームワークである \regName を提案する。
表現の多様性を促進するモード内分散正規化と、厳密なアライメントを伴わないサンプルレベルのクロスモーダルドリフトを束縛するモード間アンカー正規化である。
提案された正規化器はプラグアンドプレイであり、アーキテクチャの変更は必要とせず、様々な訓練パラダイムと互換性がある。
複数のマルチモーダルベンチマークに対する大規模な実験は、マルチモーダルとユニモーダルの両方のパフォーマンスが一貫した改善を示し、表現幾何学の明示的な制御がモダリティトレードオフを効果的に緩和することを示した。
関連論文リスト
- UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - BTW: A Non-Parametric Variance Stabilization Framework for Multimodal Model Integration [20.600001069987318]
トレーニング中のモダリティ重要度を動的に調整するために,BTW(Beyond Two-modality Weighting)を提案する。
BTWは、各ユニモーダルと現在のマルチモーダル予測とのばらつきを測定することで、サンプル毎のKL重みを計算する。
本手法は回帰性能と多クラス分類精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-08-25T23:00:38Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [18.066105354135058]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View [35.389116270077324]
マルチモーダル融合は様々なモダリティの境界を突破し、既に顕著な性能を達成している。
多くの専門分野において、トレーニングに十分なアライメントデータを得るのに苦労している。
本稿では,CLIPに基づく新しい手法であるSet-CLIPを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:41:14Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。