論文の概要: Confidence-driven Gradient Modulation for Multimodal Human Activity Recognition: A Dynamic Contrastive Dual-Path Learning Approach
- arxiv url: http://arxiv.org/abs/2507.02826v1
- Date: Thu, 03 Jul 2025 17:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.777514
- Title: Confidence-driven Gradient Modulation for Multimodal Human Activity Recognition: A Dynamic Contrastive Dual-Path Learning Approach
- Title(参考訳): マルチモーダルなヒューマンアクティビティ認識のための信頼駆動型グラディエント変調:動的コントラストデュアルパス学習アプローチ
- Authors: Panpan Ji, Junni Song, Hang Xiao, Hanyu Liu, Chao Li,
- Abstract要約: 動的コントラストデュアルパスネットワーク(D-HAR)と呼ばれる新しいフレームワークを提案する。
まず、デュアルパスの特徴抽出アーキテクチャを使用し、ResNetとDenseCDPNetが協調してマルチモーダルセンサデータを処理している。
第二に、局所的な知覚から意味的抽象への進歩的なアライメントを実現するために、多段階のコントラスト学習機構を導入する。
第3に、バックプロパゲーション中の各モード分岐の学習強度を動的に監視・調整する信頼性駆動型勾配変調方式を提案する。
- 参考スコア(独自算出の注目度): 3.0868241505670198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sensor-based Human Activity Recognition (HAR) is a core technology that enables intelligent systems to perceive and interact with their environment. However, multimodal HAR systems still encounter key challenges, such as difficulties in cross-modal feature alignment and imbalanced modality contributions. To address these issues, we propose a novel framework called the Dynamic Contrastive Dual-Path Network (DCDP-HAR). The framework comprises three key components. First, a dual-path feature extraction architecture is employed, where ResNet and DenseNet branches collaboratively process multimodal sensor data. Second, a multi-stage contrastive learning mechanism is introduced to achieve progressive alignment from local perception to semantic abstraction. Third, we present a confidence-driven gradient modulation strategy that dynamically monitors and adjusts the learning intensity of each modality branch during backpropagation, effectively alleviating modality competition. In addition, a momentum-based gradient accumulation strategy is adopted to enhance training stability. We conduct ablation studies to validate the effectiveness of each component and perform extensive comparative experiments on four public benchmark datasets.
- Abstract(参考訳): センサベースのヒューマンアクティビティ認識(HAR)は、インテリジェントなシステムが環境を知覚し、相互作用することを可能にする中核技術である。
しかし、マルチモーダルHARシステムは、クロスモーダルな特徴アライメントの困難や、不均衡なモダリティ貢献など、重要な課題に直面している。
このような問題に対処するため,我々は動的コントラスト型デュアルパスネットワーク(DCDP-HAR)と呼ばれる新しいフレームワークを提案する。
フレームワークは3つのキーコンポーネントから構成される。
まず、ResNetとDenseNetが協調してマルチモーダルセンサデータを処理する、デュアルパス特徴抽出アーキテクチャを採用する。
第二に、局所的な知覚から意味的抽象への進歩的なアライメントを実現するために、多段階のコントラスト学習機構を導入する。
第3に、バックプロパゲーション中の各モード分岐の学習強度を動的に監視・調整し、効果的にモダリティ競争を緩和する信頼駆動型勾配変調戦略を提案する。
また、運動量に基づく勾配蓄積戦略を採用し、トレーニング安定性を向上させる。
我々は,各コンポーネントの有効性を検証するためのアブレーション研究を行い,4つの公開ベンチマークデータセットで比較実験を行った。
関連論文リスト
- TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework [9.592695064018487]
TiCoSSは、セマンティックセグメンテーションとステレオマッチングを同時に扱う最先端のジョイントラーニングフレームワークである。
本研究は,(1)密結合型ゲート型特徴融合戦略,(2)階層型深層監視戦略,(3)結合密化損失関数の3つの新しい特徴を紹介する。
論文 参考訳(メタデータ) (2024-07-25T13:31:55Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。