論文の概要: Collaborative Attention Mechanism for Multi-View Action Recognition
- arxiv url: http://arxiv.org/abs/2009.06599v2
- Date: Wed, 25 Nov 2020 20:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 12:43:58.098743
- Title: Collaborative Attention Mechanism for Multi-View Action Recognition
- Title(参考訳): 多視点行動認識のための協調的注意機構
- Authors: Yue Bai, Zhiqiang Tao, Lichen Wang, Sheng Li, Yu Yin and Yun Fu
- Abstract要約: 本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
- 参考スコア(独自算出の注目度): 75.33062629093054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view action recognition (MVAR) leverages complementary temporal
information from different views to improve the learning performance. Obtaining
informative view-specific representation plays an essential role in MVAR.
Attention has been widely adopted as an effective strategy for discovering
discriminative cues underlying temporal data. However, most existing MVAR
methods only utilize attention to extract representation for each view
individually, ignoring the potential to dig latent patterns based on
mutual-support information in attention space. To this end, we propose a
collaborative attention mechanism (CAM) for solving the MVAR problem in this
paper. The proposed CAM detects the attention differences among multi-view, and
adaptively integrates frame-level information to benefit each other.
Specifically, we extend the long short-term memory (LSTM) to a Mutual-Aid RNN
(MAR) to achieve the multi-view collaboration process. CAM takes advantages of
view-specific attention pattern to guide another view and discover potential
information which is hard to be explored by itself. It paves a novel way to
leverage attention information and enhances the multi-view representation
learning. Extensive experiments on four action datasets illustrate the proposed
CAM achieves better results for each view and also boosts multi-view
performance.
- Abstract(参考訳): 多視点行動認識(MVAR)は、異なる視点からの相補的時間情報を活用して学習性能を向上させる。
MVARでは、情報的なビュー固有の表現が不可欠である。
注意は、時間的データに基づく差別的手がかりを発見する効果的な戦略として広く採用されている。
しかし,既存のMVAR手法の多くは,注目空間における相互支援情報に基づいて潜在パターンを掘り下げる可能性を無視して,個々の視点を個別に表現するためにのみ注意を払っている。
そこで本稿では,MVAR問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間の注意差を検出し,フレームレベルの情報を適応的に統合して相互に利益をもたらす。
具体的には、長い短期記憶(LSTM)をMAR(Mutual-Aid RNN)に拡張し、マルチビュー協調プロセスを実現する。
CAMはビュー固有の注意パターンの利点を生かして、他のビューを案内し、自分自身で探すのが難しい潜在的な情報を発見する。
注目情報を活用する新しい手法を開拓し、多視点表現学習を強化する。
4つのアクションデータセットに関する大規模な実験では、提案されたCAMが各ビューに対してより良い結果を得るとともに、マルチビューのパフォーマンスも向上している。
関連論文リスト
- URRL-IMVC: Unified and Robust Representation Learning for Incomplete Multi-View Clustering [28.776476995363048]
不完全なマルチビュークラスタリングのための統一表現学習(URRL-IMVC)を提案する。
URRL-IMVCは、複数のビューや隣接するサンプルからの情報を統合することで、失われた状態を見るのに堅牢な統合埋め込みを直接学習する。
提案するURRL-IMVCフレームワークを様々なベンチマークデータセット上で広範囲に評価し,その最先端性能を実証した。
論文 参考訳(メタデータ) (2024-07-12T09:35:25Z) - BiVRec: Bidirectional View-based Multimodal Sequential Recommendation [55.87443627659778]
我々は,IDとマルチモーダルの両方で推薦タスクを共同で訓練する,革新的なフレームワークであるBivRecを提案する。
BivRecは5つのデータセットで最先端のパフォーマンスを達成し、様々な実用的な利点を示している。
論文 参考訳(メタデータ) (2024-02-27T09:10:41Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Dual Representation Learning for One-Step Clustering of Multi-View Data [30.131568561100817]
異なるビューの共通情報と特定情報の二重表現を利用して,新しい一段階のマルチビュークラスタリング手法を提案する。
このフレームワークでは、表現学習とクラスタリングのパーティションが相互に恩恵を受け、クラスタリングのパフォーマンスが効果的に向上する。
論文 参考訳(メタデータ) (2022-08-30T14:20:26Z) - Self-Supervised Information Bottleneck for Deep Multi-View Subspace
Clustering [29.27475285925792]
我々は、SIB-MSC(Self-supervised Information Bottleneck based Multi-view Subspace Clustering)と呼ばれる新しいフレームワークを確立する。
SIB-MSCは、情報のボトルネックから利点を継承し、各ビューの潜伏空間を学習し、異なるビューの潜伏表現の共通情報をキャプチャする。
本手法は,最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-04-26T15:49:59Z) - A Variational Information Bottleneck Approach to Multi-Omics Data
Integration [98.6475134630792]
本稿では,不完全な多視点観測のための深い変動情報ボトルネック (IB) 手法を提案する。
本手法は,対象物に関連のある視点内および視点間相互作用に焦点をあてるために,観測された視点の辺縁および結合表現にISBフレームワークを適用した。
実世界のデータセットの実験から、我々の手法はデータ統合から常に利益を得て、最先端のベンチマークより優れています。
論文 参考訳(メタデータ) (2021-02-05T06:05:39Z) - Generative Partial Multi-View Clustering [133.36721417531734]
本稿では,不完全なマルチビュー問題に対処するため,GP-MVCと呼ばれる生成的部分的マルチビュークラスタリングモデルを提案する。
まず、マルチビューエンコーダネットワークをトレーニングして、一般的な低次元表現を学習し、次にクラスタリング層を使用して複数のビューをまたいだ一貫したクラスタ構造をキャプチャする。
第2に、他のビューが与える共有表現に基づいて、1つのビュー条件の欠落データを生成するために、ビュー固有の生成敵ネットワークを開発する。
論文 参考訳(メタデータ) (2020-03-29T17:48:27Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。