論文の概要: Trunk-branch Contrastive Network with Multi-view Deformable Aggregation for Multi-view Action Recognition
- arxiv url: http://arxiv.org/abs/2502.16493v1
- Date: Sun, 23 Feb 2025 08:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:17.510002
- Title: Trunk-branch Contrastive Network with Multi-view Deformable Aggregation for Multi-view Action Recognition
- Title(参考訳): 多視点動作認識のための多視点変形可能なアグリゲーションを用いたトランクブランチコントラストネットワーク
- Authors: Yingyuan Yang, Guoyuan Liang, Can Wang, Xiaojun Wu,
- Abstract要約: マルチビューアクション認識は、与えられたマルチビューシーンにおけるアクションを特定することを目的としている。
RGBに基づくマルチビュー動作認識のための新しいトランクブランチコントラストネットワーク(TBCNet)を提案する。
- 参考スコア(独自算出の注目度): 8.99769677768336
- License:
- Abstract: Multi-view action recognition aims to identify actions in a given multi-view scene. Traditional studies initially extracted refined features from each view, followed by implemented paired interaction and integration, but they potentially overlooked the critical local features in each view. When observing objects from multiple perspectives, individuals typically form a comprehensive impression and subsequently fill in specific details. Drawing inspiration from this cognitive process, we propose a novel trunk-branch contrastive network (TBCNet) for RGB-based multi-view action recognition. Distinctively, TBCNet first obtains fused features in the trunk block and then implicitly supplements vital details provided by the branch block via contrastive learning, generating a more informative and comprehensive action representation. Within this framework, we construct two core components: the multi-view deformable aggregation and the trunk-branch contrastive learning. MVDA employed in the trunk block effectively facilitates multi-view feature fusion and adaptive cross-view spatio-temporal correlation, where a global aggregation module is utilized to emphasize significant spatial information and a composite relative position bias is designed to capture the intra- and cross-view relative positions. Moreover, a trunk-branch contrastive loss is constructed between aggregated features and refined details from each view. By incorporating two distinct weights for positive and negative samples, a weighted trunk-branch contrastive loss is proposed to extract valuable information and emphasize subtle inter-class differences. The effectiveness of TBCNet is verified by extensive experiments on four datasets including NTU-RGB+D 60, NTU-RGB+D 120, PKU-MMD, and N-UCLA dataset. Compared to other RGB-based methods, our approach achieves state-of-the-art performance in cross-subject and cross-setting protocols.
- Abstract(参考訳): マルチビューアクション認識は、与えられたマルチビューシーンにおけるアクションを特定することを目的としている。
伝統的な研究は最初、各視点から洗練された特徴を抽出し、続いてペア化された相互作用と統合を実装したが、それらは各視点における重要な局所的特徴を見落としていた可能性がある。
複数の視点から物体を観察する際、個人は通常包括的な印象を形成し、その後、特定の詳細を記入する。
この認知プロセスからインスピレーションを得て,RGBに基づく多視点行動認識のための新しいトランクブランチコントラストネットワーク(TBCNet)を提案する。
TBCNetは、まずトランクブロックの融合した特徴を取得し、対照的な学習を通じて枝ブロックが提供する重要な詳細を暗黙的に補足し、より情報的で包括的な行動表現を生成する。
このフレームワークでは,マルチビューの変形可能なアグリゲーションとトランクブランチのコントラスト学習という,2つのコアコンポーネントを構築している。
トランクブロックに使用されるMVDAは、多視点特徴融合と適応的クロスビュー時空間相関を効果的に促進し、グローバルアグリゲーションモジュールを用いて重要な空間情報を強調し、複合相対位置バイアスを設計して、その内および横断相対位置を捕捉する。
また, トランクブランチのコントラスト損失は, 集約された特徴と各ビューの精細な詳細との間に構築される。
正および負のサンプルに対して2つの異なる重みを組み込むことにより,重み付きトランクブランチのコントラスト損失を提案し,貴重な情報を抽出し,微妙なクラス間差を強調する。
TBCNetの有効性は、NTU-RGB+D 60、NTU-RGB+D 120、PKU-MMD、N-UCLAデータセットを含む4つのデータセットで広範な実験によって検証される。
提案手法は,他のRGB手法と比較して,クロスオブジェクトおよびクロスセットプロトコルにおける最先端性能を実現する。
関連論文リスト
- Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
離散コードによるより強力な協調情報を用いて、コントラスト的なビューを構築することにより、グラフのコントラスト学習を強化することを目的とした、新しいフレームワークを提案する。
中心となる考え方は、ユーザとアイテムを協調情報に富んだ離散コードにマッピングし、信頼性と情報に富んだコントラッシブなビュー生成を可能にすることである。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - Asymmetric double-winged multi-view clustering network for exploring
Diverse and Consistent Information [28.300395619444796]
教師なしのシナリオでは、ディープコントラッシブ・マルチビュー・クラスタリング(DCMVC)がホットな研究スポットになりつつある。
我々はCodingNetと呼ばれる新しいマルチビュークラスタリングネットワークを提案し、多様な一貫した情報を同時に探索する。
フレームワークの有効性は、広く使用されている6つのベンチマークデータセットに関する広範な実験を通じて検証される。
論文 参考訳(メタデータ) (2023-09-01T14:13:22Z) - DealMVC: Dual Contrastive Calibration for Multi-view Clustering [78.54355167448614]
マルチビュークラスタリングのための新しいデュアルコントラストキャリブレーションネットワーク(DealMVC)を提案する。
まず、グローバルなクロスビュー特徴を得るための融合機構を設計し、その上で、ビュー特徴類似性グラフと高信頼な擬ラベルグラフを整列させることにより、グローバルなコントラストキャリブレーション損失を提案する。
トレーニング手順の間、対話型クロスビュー機能は、ローカルレベルとグローバルレベルの両方で共同最適化される。
論文 参考訳(メタデータ) (2023-08-17T14:14:28Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。