論文の概要: DCER: Dual-Stage Compression and Energy-Based Reconstruction
- arxiv url: http://arxiv.org/abs/2602.04904v1
- Date: Tue, 03 Feb 2026 22:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.526753
- Title: DCER: Dual-Stage Compression and Energy-Based Reconstruction
- Title(参考訳): DCER:デュアルステージ圧縮とエネルギーベース再構築
- Authors: Yiwen Wang, Jiahao Qin,
- Abstract要約: ノイズのある入力は表現の質を低下させ、モダリティの欠如は予測失敗を引き起こす。
両段圧縮とエネルギーベース再構成による課題に対処する統合フレームワークDCERを提案する。
CMU-MOSI、CMU-MOSEI、CH-SIMSの実験では、すべてのベンチマークで最先端のパフォーマンスが示されている。
- 参考スコア(独自算出の注目度): 6.677604052097574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fusion faces two robustness challenges: noisy inputs degrade representation quality, and missing modalities cause prediction failures. We propose DCER, a unified framework addressing both challenges through dual-stage compression and energy-based reconstruction. The compression stage operates at two levels: within-modality frequency transforms (wavelet for audio, DCT for video) remove noise while preserving task-relevant patterns, and cross-modality bottleneck tokens force genuine integration rather than modality-specific shortcuts. For missing modalities, energy-based reconstruction recovers representations via gradient descent on a learned energy function, with the final energy providing intrinsic uncertainty quantification (\r{ho} > 0.72 correlation with prediction error). Experiments on CMU-MOSI, CMU-MOSEI, and CH-SIMS demonstrate state-of-the-art performance across all benchmarks, with a U-shaped robustness pattern favoring multimodal fusion at both complete and high-missing conditions. The code will be available on Github.
- Abstract(参考訳): ノイズのある入力は表現の質を低下させ、モダリティの欠如は予測失敗を引き起こす。
両段圧縮とエネルギーベース再構成による課題に対処する統合フレームワークDCERを提案する。
圧縮ステージは、モード内周波数変換(オーディオ用ウェーブレット、ビデオ用DCT)とタスク関連パターンを保持しながらノイズを除去し、モダリティ固有のショートカットではなく、実際の統合を強制するクロスモーダルボトルネックトークンの2段階で動作する。
欠落したモダリティに対して、エネルギーベースの再構成は、学習エネルギー関数上の勾配降下による表現を復元し、最終的なエネルギーが固有の不確実性定量化(\r{ho} > 0.72 と予測誤差との相関)を提供する。
CMU-MOSI、CMU-MOSEI、CH-SIMSの実験は、全ベンチマークで最先端の性能を示し、U字型の頑健性パターンは、完全および高損失条件の両方でマルチモーダル融合を好んでいる。
コードはGithubで入手できる。
関連論文リスト
- From Noise to Latent: Generating Gaussian Latents for INR-Based Image Compression [15.519085773825656]
最近の暗黙的ニューラル表現(INR)に基づく画像圧縮法は、画像固有の潜時符号を過度に適合させることで、競争性能を示している。
本稿では,複数スケールのガウス雑音から画像特異的潜伏音を再構成する新しい画像圧縮パラダイムを提案する。
提案手法は,KodakおよびCLICデータセット上での競合速度歪み性能を実現し,潜時符号の送信を不要とする。
論文 参考訳(メタデータ) (2025-11-11T09:12:03Z) - PAD: Phase-Amplitude Decoupling Fusion for Multi-Modal Land Cover Classification [49.37555541088792]
位相振幅デカップリング(PAD)は、位相(モダリティ共有)と振幅(モダリティ補完)を分離する周波数対応のフレームワークである。
この研究は、リモートセンシングにおける物理を意識したマルチモーダル融合の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-27T07:21:42Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral
Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。
HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文 参考訳(メタデータ) (2022-05-20T11:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。