論文の概要: Temporal-Spatial Decouple before Act: Disentangled Representation Learning for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2601.13659v1
- Date: Tue, 20 Jan 2026 06:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.192122
- Title: Temporal-Spatial Decouple before Act: Disentangled Representation Learning for Multimodal Sentiment Analysis
- Title(参考訳): 行為前の時間空間的分離:マルチモーダル感性分析のためのアンタングル表現学習
- Authors: Chunlei Meng, Ziyang Zhou, Lucas He, Xiaojing Du, Chun Ouyang, Zhongxue Gan,
- Abstract要約: 本稿では,各モーダルを時間的ダイナミックスと空間的構造的コンテキストに明示的に分離するTSDA法を提案する。
あらゆるモダリティに対して、時間エンコーダと空間空間エンコーダは、別々の時間的および空間的な体に信号を伝達する。
F-Consistent Cross-Modal Alignmentは、時間的特徴と時間的特徴と、時間的特徴と、空間的特徴とを一致させる。
- 参考スコア(独自算出の注目度): 9.998823710345919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Sentiment Analysis integrates Linguistic, Visual, and Acoustic. Mainstream approaches based on modality-invariant and modality-specific factorization or on complex fusion still rely on spatiotemporal mixed modeling. This ignores spatiotemporal heterogeneity, leading to spatiotemporal information asymmetry and thus limited performance. Hence, we propose TSDA, Temporal-Spatial Decouple before Act, which explicitly decouples each modality into temporal dynamics and spatial structural context before any interaction. For every modality, a temporal encoder and a spatial encoder project signals into separate temporal and spatial body. Factor-Consistent Cross-Modal Alignment then aligns temporal features only with their temporal counterparts across modalities, and spatial features only with their spatial counterparts. Factor specific supervision and decorrelation regularization reduce cross factor leakage while preserving complementarity. A Gated Recouple module subsequently recouples the aligned streams for task. Extensive experiments show that TSDA outperforms baselines. Ablation analysis studies confirm the necessity and interpretability of the design.
- Abstract(参考訳): 言語,視覚,音響を統合したマルチモーダル知覚分析
主ストリームのアプローチは、モダリティ不変およびモダリティ固有因数分解に基づくものであり、複雑な融合は時空間混合モデリングに依存している。
これにより時空間の不均一性が無視され、時空間情報非対称性が生まれ、性能が制限される。
そこで,本論文では,時空間分離法(TSDA, Temporal-Spatial Deouple before Act)を提案する。
あらゆるモダリティに対して、時間エンコーダと空間エンコーダは、別々の時間的および空間的な体に信号を伝達する。
因子一貫性のクロスモーダルアライメントは、時間的特徴のみをモーダル性にまたがる時間的特徴と、空間的特徴のみと整列する。
因子特異的監督と非相関正則化は、相補性を保ちながらクロスファクターリークを減少させる。
Gated Recoupleモジュールはその後、タスクのアライメントストリームを再結合する。
大規模な実験により、TSDAはベースラインよりも優れていた。
アブレーション分析研究により、設計の必要性と解釈可能性が確認された。
関連論文リスト
- Unleashing Temporal Capacity of Spiking Neural Networks through Spatiotemporal Separation [67.69345363409835]
スパイキングニューラルネットワーク(SNN)は、時間的処理に自然に適していると考えられており、膜電位の伝播は、コア時間的モデリングメカニズムとして広く見なされている。
我々は, 膜伝播を段階的に段階的に除去する非ステートフル(NS)モデルの設計を行った。
論文 参考訳(メタデータ) (2025-12-05T07:05:53Z) - TaCo: Capturing Spatio-Temporal Semantic Consistency in Remote Sensing Change Detection [54.22717266034045]
Ta-Coは時間的意味遷移のための一貫したセマンティックネットワークである。
我々は,Ta-Coがリモートセンシング検出タスクにおいて一貫したSOTA性能を実現することを示す。
この設計は推論中に余分な計算オーバーヘッドを伴わずにかなりの利得を得ることができる。
論文 参考訳(メタデータ) (2025-11-25T13:44:29Z) - Multivariate Long-term Time Series Forecasting with Fourier Neural Filter [42.60778405812048]
我々はFNFをバックボーンとして、DBDをアーキテクチャとして導入し、空間時間モデルのための優れた学習能力と最適な学習経路を提供する。
FNFは、局所時間領域とグローバル周波数領域の情報処理を単一のバックボーン内で統合し、空間的モデリングに自然に拡張することを示す。
論文 参考訳(メタデータ) (2025-06-10T18:40:20Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - SFTformer: A Spatial-Frequency-Temporal Correlation-Decoupling
Transformer for Radar Echo Extrapolation [15.56594998349013]
レーダエコーの空間形態と時間的進化はある程度の相関関係を示すが、それらは独立性を持っている。
レーダエコーのダイナミックスを効果的にモデル化するために,時空間相関分離変換器(SFTformer)を提案する。
HKO-7 と ChinaNorth-2021 データセットの実験結果から,SFTfomer の短時間 (1h), 中期 (2h), 長期 (3h) 降水量に優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-28T04:43:41Z) - A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - Spatio-temporal Diffusion Point Processes [23.74522530140201]
パティオ・テンポラル・ポイント・プロセス(英: patio-temporal point process、STPP)は、時間と空間を伴うイベントの集合である。
結合分布のモデル化に失敗すると、与えられた事象の過去の時間的相互作用を特徴づける能力は限られる。
複雑な時空間の関節分布を学習する新しいパラメータ化フレームワークを提案する。
我々のフレームワークは最先端のベースラインを著しく上回り、平均50%以上の改善がなされています。
論文 参考訳(メタデータ) (2023-05-21T08:53:00Z) - Supporting Optimal Phase Space Reconstructions Using Neural Network
Architecture for Time Series Modeling [68.8204255655161]
位相空間特性を暗黙的に学習する機構を持つ人工ニューラルネットワークを提案する。
私たちのアプローチは、ほとんどの最先端戦略と同じくらいの競争力があるか、あるいは優れているかのどちらかです。
論文 参考訳(メタデータ) (2020-06-19T21:04:47Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。