論文の概要: FITMM: Adaptive Frequency-Aware Multimodal Recommendation via Information-Theoretic Representation Learning
- arxiv url: http://arxiv.org/abs/2601.22498v1
- Date: Fri, 30 Jan 2026 03:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.189162
- Title: FITMM: Adaptive Frequency-Aware Multimodal Recommendation via Information-Theoretic Representation Learning
- Title(参考訳): FITMM:情報理論表現学習による適応周波数対応マルチモーダルレコメンデーション
- Authors: Wei Yang, Rui Zhong, Yiqun Chen, Shixuan Li, Heng Ping, Chi Lu, Peng Jiang,
- Abstract要約: マルチモーダルレコメンデーションのための周波数対応情報理論フレームワークを提案する。
FITMMはグラフ付きアイテム表現を構築し、モダリティワイドスペクトル分解を行い、軽量なバンド内マルチモーダル成分を形成する。
実世界の3つのデータセットの実験では、FITMMは一貫して、高度なベースラインをはるかに上回っている。
- 参考スコア(独自算出の注目度): 14.873780184982003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal recommendation aims to enhance user preference modeling by leveraging rich item content such as images and text. Yet dominant systems fuse modalities in the spatial domain, obscuring the frequency structure of signals and amplifying misalignment and redundancy. We adopt a spectral information-theoretic view and show that, under an orthogonal transform that approximately block-diagonalizes bandwise covariances, the Gaussian Information Bottleneck objective decouples across frequency bands, providing a principled basis for separate-then-fuse paradigm. Building on this foundation, we propose FITMM, a Frequency-aware Information-Theoretic framework for multimodal recommendation. FITMM constructs graph-enhanced item representations, performs modality-wise spectral decomposition to obtain orthogonal bands, and forms lightweight within-band multimodal components. A residual, task-adaptive gate aggregates bands into the final representation. To control redundancy and improve generalization, we regularize training with a frequency-domain IB term that allocates capacity across bands (Wiener-like shrinkage with shut-off of weak bands). We further introduce a cross-modal spectral consistency loss that aligns modalities within each band. The model is jointly optimized with the standard recommendation loss. Extensive experiments on three real-world datasets demonstrate that FITMM consistently and significantly outperforms advanced baselines.
- Abstract(参考訳): マルチモーダルレコメンデーションは、画像やテキストなどのリッチなアイテムコンテンツを活用することで、ユーザの嗜好モデリングを強化することを目的としている。
しかし、支配的なシステムは空間領域におけるモダリティを融合させ、信号の周波数構造を隠蔽し、不整合と冗長性を増幅する。
我々はスペクトル情報理論の観点を採用し、ブロック対角線を略す直交変換の下では、ガウス情報ボトルネックは周波数帯域をまたいで分離し、分離拡散パラダイムの原則的基礎を提供することを示す。
この基盤の上に構築されたFITMMは、マルチモーダルレコメンデーションのための周波数対応情報理論フレームワークである。
FITMMは、グラフ強化されたアイテム表現を構築し、直交帯域を得るためにモダリティワイズスペクトル分解を行い、軽量なバンド内マルチモーダル成分を形成する。
残余のタスク適応ゲートは、バンドを最終表現に集約する。
冗長性を制御し、一般化を改善するため、帯域間の容量を割り当てる周波数領域IB項を用いてトレーニングを正規化する(弱い帯域の遮断を伴うウィナーライクな縮小)。
さらに、各帯域内のモードを整合させるクロスモーダルスペクトル整合損失を導入する。
モデルは標準レコメンデーション損失と共同最適化されている。
実世界の3つのデータセットに対する大規模な実験により、FITMMは一貫して、高度なベースラインを著しく上回ることを示した。
関連論文リスト
- UniDiff: A Unified Diffusion Framework for Multimodal Time Series Forecasting [90.47915032778366]
マルチモーダル時系列予測のための統合拡散フレームワークUniDiffを提案する。
コアには統一的で並列な融合モジュールがあり、単一のクロスアテンション機構がタイムスタンプからの構造化情報とテキストからのセマンティックコンテキストを統合する。
8つの領域にわたる実世界のベンチマークデータセットの実験は、提案したUniDiffモデルが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-08T05:36:14Z) - A Novel Multimodal RUL Framework for Remaining Useful Life Estimation with Layer-wise Explanations [2.312232949770907]
転がり要素軸受は機械故障の最も頻発する原因の一つである。
転がり要素軸受は機械故障の最も頻発する原因の一つである。
既存のアプローチは、しばしば、一般化の貧弱、堅牢性の欠如、高いデータ要求、限定的な解釈可能性に悩まされる。
論文 参考訳(メタデータ) (2025-12-07T07:38:36Z) - Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation [13.886659472425393]
マルチモーダルレコメンデーションは、視覚情報やテキスト情報などの異種コンテンツと協調的な信号を統合することを目的としている。
これらの問題は、しばしば単純融合や浅いモデリング戦略によって悪化し、一般化の低下とロバスト性の低下につながる。
周波数対応マルチモーダルレコメンデーションのための構造化スペクトル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-01T07:39:28Z) - FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。
本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。
FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2025-11-26T08:36:33Z) - Frequency-Domain Decomposition and Recomposition for Robust Audio-Visual Segmentation [60.9960601057956]
本稿では2つの主要なモジュールからなる周波数対応オーディオ・ビジュアルコンポスタ(FAVS)フレームワークを紹介する。
FAVSフレームワークは、3つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T12:33:48Z) - Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。
拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文 参考訳(メタデータ) (2025-07-02T01:22:46Z) - Robust Spectral Fuzzy Clustering of Multivariate Time Series with Applications to Electroencephalogram [6.62414474989199]
スペクトル領域にファジィクラスタリングフレームワークを導入し、変数間の周波数特異なモノトニックな関係を抽出する。
本手法は、クラスタリング精度を向上させるために、周波数ベースのクロスリージョン接続パターンを優先的に活用する。
フラッグシップアプリケーションとして脳波記録を解析し,潜在認知状態の周波数・接続性特異的マーカーを明らかにする。
論文 参考訳(メタデータ) (2025-06-28T12:02:01Z) - Content-aware Balanced Spectrum Encoding in Masked Modeling for Time Series Classification [25.27495694566081]
マスクド・モデリング・スキームにおけるスペクトル空間の符号化品質を最適化する補助的コンテンツ認識バランスド・デコーダ(CBD)を提案する。
CBDは一連の基本ブロックを反復し、2つの調整されたユニットのおかげで、各ブロックは徐々にマスクされた表現を洗練させることができた。
論文 参考訳(メタデータ) (2024-12-17T14:12:20Z) - Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。