論文の概要: Spectral Disentanglement and Enhancement: A Dual-domain Contrastive Framework for Representation Learning
- arxiv url: http://arxiv.org/abs/2602.09066v1
- Date: Mon, 09 Feb 2026 07:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.169969
- Title: Spectral Disentanglement and Enhancement: A Dual-domain Contrastive Framework for Representation Learning
- Title(参考訳): スペクトル歪みと拡張:表現学習のための二重領域コントラストフレームワーク
- Authors: Jinjin Guo, Yexin Li, Zhichao Huang, Jun Fang, Zhiyuan Liu, Chao Liu, Pengzhang Liu, Qixia Jiang,
- Abstract要約: SDE(Spectral Disentanglement and Enhancement)は、埋め込み空間の幾何学とスペクトル特性の間のギャップを埋める新しいフレームワークである。
SDEは一貫して表現と堅牢性を改善し、最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 28.392130815615545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale multimodal contrastive learning has recently achieved impressive success in learning rich and transferable representations, yet it remains fundamentally limited by the uniform treatment of feature dimensions and the neglect of the intrinsic spectral structure of the learned features. Empirical evidence indicates that high-dimensional embeddings tend to collapse into narrow cones, concentrating task-relevant semantics in a small subspace, while the majority of dimensions remain occupied by noise and spurious correlations. Such spectral imbalance and entanglement undermine model generalization. We propose Spectral Disentanglement and Enhancement (SDE), a novel framework that bridges the gap between the geometry of the embedded spaces and their spectral properties. Our approach leverages singular value decomposition to adaptively partition feature dimensions into strong signals that capture task-critical semantics, weak signals that reflect ancillary correlations, and noise representing irrelevant perturbations. A curriculum-based spectral enhancement strategy is then applied, selectively amplifying informative components with theoretical guarantees on training stability. Building upon the enhanced features, we further introduce a dual-domain contrastive loss that jointly optimizes alignment in both the feature and spectral spaces, effectively integrating spectral regularization into the training process and encouraging richer, more robust representations. Extensive experiments on large-scale multimodal benchmarks demonstrate that SDE consistently improves representation robustness and generalization, outperforming state-of-the-art methods. SDE integrates seamlessly with existing contrastive pipelines, offering an effective solution for multimodal representation learning.
- Abstract(参考訳): 大規模マルチモーダルコントラスト学習は、最近、豊かで伝達可能な表現を学習することに成功したが、特徴次元の均一な処理と、学習した特徴の固有のスペクトル構造を無視することによって、基本的に制限されている。
実験的な証拠は、高次元の埋め込みは狭い円錐に崩壊し、小さな部分空間におけるタスク関連セマンティクスに集中する傾向にあることを示している。
このようなスペクトル不均衡と絡み合いはモデル一般化を損なう。
本稿では,組込み空間の幾何学的特徴とスペクトル特性とのギャップを埋める新しいフレームワークであるSDE(Spectral Disentanglement and Enhancement)を提案する。
提案手法は特異値分解を利用して特徴次元を適応的に分割し,タスククリティカルなセマンティクスを捉える強い信号,アシラリー相関を反映する弱い信号,無関係な摂動を表す雑音に分解する。
次に、カリキュラムベースのスペクトル強調戦略を適用し、学習安定性に関する理論的保証のある情報成分を選択的に増幅する。
拡張された特徴に基づいて、特徴空間とスペクトル空間の整合性を協調的に最適化し、スペクトル正規化をトレーニングプロセスに効果的に統合し、よりリッチでロバストな表現を促進するデュアルドメインのコントラスト損失を導入する。
大規模マルチモーダルベンチマークの大規模な実験により、SDEは表現の堅牢性と一般化を一貫して改善し、最先端の手法よりも優れることを示した。
SDEは既存のコントラストパイプラインとシームレスに統合され、マルチモーダル表現学習のための効果的なソリューションを提供する。
関連論文リスト
- Spectral Discrepancy and Cross-modal Semantic Consistency Learning for Object Detection in Hyperspectral Image [40.38555448650773]
スペクトル分解能の高いハイパースペクトル画像は、類似した物質の微妙な違いを認識するための新たな洞察を与える。
ハイパースペクトル画像における物体検出は、ハイパースペクトル間バンドの空間的差異により、クラス内およびクラス間類似性において重大な課題に直面している。
textbfSpectral textbfDiscrepancy と textbfCross-textbfModal semantic consistency learning (SDCM) という新しいネットワークを提案する。
提案手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-20T07:03:09Z) - Spectral Representation-based Reinforcement Learning [42.78610854620513]
本稿では,強化学習の難しさに対する解決策として,スペクトル表現の視点を紹介する。
潜在変数構造を持つ遷移作用素やエネルギーベース構造を持つ遷移作用素に対してスペクトル表現を構築する方法を示す。
また、このスペクトルビューを部分的に観測可能なMDPにも拡張する。
論文 参考訳(メタデータ) (2025-12-17T02:54:42Z) - Equal is Not Always Fair: A New Perspective on Hyperspectral Representation Non-Uniformity [42.8098014428052]
ハイパースペクトル画像(HSI)の表現は、広汎な非一様性によって根本的に挑戦される。
フェアネス指向のフレームワークであるFairHypを提案する。
本研究は,HSIモデリングにおける構造的必要条件として公正性を再定義し,適応性,効率,忠実性のバランスをとるための新たなパラダイムを提供する。
論文 参考訳(メタデータ) (2025-05-16T14:00:11Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。
これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文 参考訳(メタデータ) (2024-03-08T09:16:47Z) - Learning Exhaustive Correlation for Spectral Super-Resolution: Where Spatial-Spectral Attention Meets Linear Dependence [26.1694389791047]
スペクトル超解像は、容易に取得可能なRGB画像からハイパースペクトル像(HSI)を復元することを目的としている。
既存のTransformerのボトルネックは2種類あり、パフォーマンスの改善と実用性に制限がある。
スペクトル超解像のための新しい Exhaustive correlation Transformer (ECT) を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:30:07Z) - Deep Diversity-Enhanced Feature Representation of Hyperspectral Images [87.47202258194719]
トポロジを改良して3次元畳み込みを補正し,上行階の高次化を図る。
また、要素間の独立性を最大化するために特徴マップに作用する新しい多様性対応正規化(DA-Reg)項を提案する。
提案したRe$3$-ConvSetとDA-Regの優位性を実証するために,様々なHS画像処理および解析タスクに適用する。
論文 参考訳(メタデータ) (2023-01-15T16:19:18Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。