論文の概要: Better with Less: Tackling Heterogeneous Multi-Modal Image Joint Pretraining via Conditioned and Degraded Masked Autoencoder
- arxiv url: http://arxiv.org/abs/2604.16952v1
- Date: Sat, 18 Apr 2026 10:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.256016
- Title: Better with Less: Tackling Heterogeneous Multi-Modal Image Joint Pretraining via Conditioned and Degraded Masked Autoencoder
- Title(参考訳): 不均一なマルチモーダル画像関節の調整を条件付き・劣化型マスクオートエンコーダで行う
- Authors: Bowen Peng, Yongxiang Liu, Jie Zhou, Xiaodong Chen, Tianpeng Liu, Xiaogang Yu, Li Liu,
- Abstract要約: 高分解能光合成開口レーダ(SAR)プレトレーニングは、単一ソース表現を相互に強化するために、モダリティの相乗効果を求める。
我々は、アライメントの少ないテキスト・ベッター・シナジーの先駆者であるCoDe-MAEを提案する。
CoDe-MAEは、表現の劣化を防ぎ、多様な単一および双方向の下流タスクにまたがる新しい最先端のパフォーマンスを確立する。
- 参考スコア(独自算出の注目度): 34.73963627819185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning robust representations across extremely heterogeneous modalities remains a fundamental challenge in multi-modal vision. As a critical and profound instantiation of this challenge, high-resolution (HR) joint optical and synthetic aperture radar (SAR) pretraining seeks modality synergy to mutually enhance single-source representations; its potential is severely hindered by the Heterogeneity-Resolution Paradox: finer spatial scales drastically amplify the physical divergence between complex radar geometries and non-homologous optical textures. Consequently, migrating medium-resolution-oriented rigid alignment paradigms to HR scenarios triggers either severe feature suppression to force equivalence, or feature contamination driven by extreme epistemic uncertainty. Both extremes inevitably culminate in profound representation degradation and negative transfer. To overcome this bottleneck, we propose CoDe-MAE, pioneering a \textit{better synergy with less alignment} philosophy. First, Optical-anchored Knowledge Distillation (OKD) implicitly regularizes SAR's speckle noise by mapping it into a pure semantic manifold. Building on this, Conditioned Contrastive Learning (CCL) utilizes a gradient buffering mechanism to align shared consensus while safely preserving divergent physical signatures. Concurrently, Cross-Modal Degraded Reconstruction (CDR) deliberately strips non-homologous spectral pseudo-features, truncating the inherently ill-posed mapping to capture true structural invariants. Extensive analyses validate our theoretical claims. Pretrained on 1M samples, CoDe-MAE demonstrates remarkable data efficiency, successfully preventing representation degradation and establishing new state-of-the-art performance across diverse single- and bi-modal downstream tasks, substantially outperforming foundation models scaled on vastly larger datasets.
- Abstract(参考訳): 非常にヘテロジニアスなモダリティを越えて堅牢な表現を学ぶことは、マルチモーダルビジョンにおける根本的な課題である。
この課題の重要かつ深いインスタンス化として、高分解能(HR)共同開口レーダ(SAR)プレトレーニングは、単一ソース表現を相互に強化するためのモダリティ・シナジーを求め、そのポテンシャルはヘテロジニティ・レゾリューション・パラドックス(英語版)によって著しく妨げられている。
その結果、中分解能指向の剛性アライメントパラダイムをHRシナリオに移行させると、重度の特徴抑制を強制的同値性に引き起こすか、または極度のてんかんの不確実性によって引き起こされる特徴汚染を引き起こす。
両極端は必然的に、深い表現の劣化と負の移動をもたらす。
このボトルネックを克服するため、我々はCoDe-MAEを提案し、より少ないアライメントの哲学でtextit{better synergy を創始した。
第一に、光学アンコール知識蒸留(OKD)は、SARのスペックルノイズを純粋意味多様体にマッピングすることで暗黙的に正規化する。
コンディション付きコントラスト学習(CCL)は、勾配バッファリング機構を使用して、共通コンセンサスを整合させ、異なる物理シグネチャを安全に保存する。
同時に、CDR(Cross-Modal Degraded Reconstruction)は、非ホモロジーなスペクトルの擬似特徴を意図的に取り除き、真の構造不変量を捉えるために本質的に不適切なマッピングを切断する。
広範囲な分析により、我々の理論的主張が検証される。
100万のサンプルで事前訓練されたCoDe-MAEは、顕著なデータ効率を示し、表現の劣化を防止し、さまざまな単一および双方向の下流タスクにまたがる新しい最先端のパフォーマンスを確立する。
関連論文リスト
- Hyperbolic Enhanced Representation Learning for Incomplete Multi-view Clustering [57.38215918201251]
本稿では,不完全なマルチビュークラスタリングのためのハイパーボリック拡張表現学習フレームワークであるHERLを提案する。
ポアンカレボール内で操作すると、HERLは表現学習を強化するために構造を意識した潜在空間を構築する。
HERLは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-04-18T10:50:46Z) - Energy-Regularized Spatial Masking: A Novel Approach to Enhancing Robustness and Interpretability in Vision Models [3.609252563305193]
深部畳み込みニューラルネットワークは、密集した空間特徴写像を徹底的に処理することで、顕著な性能を達成する。
このブルートフォース戦略は、大きな計算冗長性を導入し、急激な背景相関に依存している。
本稿では,エネルギーの最小化問題として特徴選択を再構成する新しいフレームワークであるEnergy-Regularized Space Masking (ERSM)を提案する。
論文 参考訳(メタデータ) (2026-04-08T09:48:31Z) - DOC-GS: Dual-Domain Observation and Calibration for Reliable Sparse-View Gaussian Splatting [80.43237927269575]
本稿では,新しい視点からスパースビュー3DGSの再構築について再考する。
我々は、ガウスの原始的信頼性の観測不能性として、コアチャレンジを識別する。
この観測を動機として、レンダリング画像フレームワークにおける統合されたデュアルドメイン観測と幾何学的手法を提案する。
論文 参考訳(メタデータ) (2026-04-08T07:01:24Z) - Revisiting the Perception-Distortion Trade-off with Spatial-Semantic Guided Super-Resolution [25.911279124430944]
SpaSemSRは2つの補完的なガイダンスを持つ空間意味誘導拡散フレームワークである。
第一に、空間的接地されたテキストガイダンスは、オブジェクトレベルの空間的手がかりを意味的なプロンプトと統合し、テキスト構造と視覚構造を整列させて歪みを低減する。
第二に、マルチエンコーダ設計とセマンティック劣化制約によるセマンティックエンハンスドビジュアルガイダンスは、多モーダルなセマンティック事前を統一し、重度劣化下での知覚リアリズムを改善する。
論文 参考訳(メタデータ) (2026-03-14T20:41:27Z) - Resolving Blind Inverse Problems under Dynamic Range Compression via Structured Forward Operator Modeling [17.311804261171094]
未知のフォワードモデルをパラメータ化するために、textbfcascaded monotonic Bernstein (CaMB)演算子を導入する。
CaMBはハードアーキテクチャの帰納バイアスとして単調性を適用し、物理的に一貫した写像に最適化を制約する。
CaMB-Diffは,信号の忠実度と物理的整合性の両方の観点から,最先端のゼロショットベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-03-02T14:09:54Z) - Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration [31.878334664450776]
セマンティックロジックと連続的なテクスチャ生成を統合した階層型フレームワークである textbfPrefRestore を提案する。
本手法は,2つの相補的戦略により,この情報格差を根本的に解決する。
Pref-Restoreは、合成および実世界のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-27T11:50:31Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking [80.07224739976911]
イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
論文 参考訳(メタデータ) (2025-10-22T13:15:13Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - ACMamba: Fast Unsupervised Anomaly Detection via An Asymmetrical Consensus State Space Model [51.83639270669481]
ハイパースペクトル画像(HSI)における教師なし異常検出は、背景から未知のターゲットを検出することを目的としている。
HSI研究は、HSIの高次元特性と高密度サンプリングベーストレーニングパラダイムにより、計算コストの急激さによって妨げられている。
計算コストを大幅に削減する非対称コンセンサス状態空間モデル(ACMamba)を提案する。
論文 参考訳(メタデータ) (2025-04-16T05:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。