論文の概要: Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification
- arxiv url: http://arxiv.org/abs/2003.12224v1
- Date: Fri, 27 Mar 2020 03:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 05:03:14.357622
- Title: Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification
- Title(参考訳): マルチグラニュラリティ参照支援型注意的特徴集約による人物再同定
- Authors: Zhizheng Zhang, Cuiling Lan, Wenjun Zeng, Zhibo Chen
- Abstract要約: ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
- 参考スコア(独自算出の注目度): 98.7585431239291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based person re-identification (reID) aims at matching the same person
across video clips. It is a challenging task due to the existence of redundancy
among frames, newly revealed appearance, occlusion, and motion blurs. In this
paper, we propose an attentive feature aggregation module, namely
Multi-Granularity Reference-aided Attentive Feature Aggregation (MG-RAFA), to
delicately aggregate spatio-temporal features into a discriminative video-level
feature representation. In order to determine the contribution/importance of a
spatial-temporal feature node, we propose to learn the attention from a global
view with convolutional operations. Specifically, we stack its relations, i.e.,
pairwise correlations with respect to a representative set of reference feature
nodes (S-RFNs) that represents global video information, together with the
feature itself to infer the attention. Moreover, to exploit the semantics of
different levels, we propose to learn multi-granularity attentions based on the
relations captured at different granularities. Extensive ablation studies
demonstrate the effectiveness of our attentive feature aggregation module
MG-RAFA. Our framework achieves the state-of-the-art performance on three
benchmark datasets.
- Abstract(参考訳): ビデオベースの人物再識別(reID)は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
フレーム間の冗長性、新たに明らかになった外観、咬合、動きのぼやけなどにより困難な課題である。
本稿では,時空間的特徴を識別的ビデオレベルの特徴表現に微妙に集約する,マルチグラニュラリティ参照支援注意特徴集合(MG-RAFA)を提案する。
空間的-時間的特徴ノードの寄与/適合性を決定するために,畳み込み操作を伴うグローバルビューから注意を引くことを提案する。
具体的には、グローバルなビデオ情報を表す参照特徴ノード(S-RFN)の代表的な集合に対して、その関係、すなわちペアの相関関係を積み重ね、その特徴自体に注意を喚起する。
さらに,異なるレベルのセマンティクスを活用すべく,異なる粒度で捉えた関係に基づいて多粒度注意を学ぶことを提案する。
広範囲にわたるアブレーション研究は,我々の注意的特徴集約モジュールMG-RAFAの有効性を示した。
本フレームワークは,3つのベンチマークデータセットの最先端性能を実現する。
関連論文リスト
- REACT: Recognize Every Action Everywhere All At Once [8.10024991952397]
グループ・アクティビティ・デコーダ(GAR)はコンピュータビジョンにおける基本的な問題であり、スポーツ分析、監視、社会場面の理解に様々な応用がある。
本稿では,変換器エンコーダ・デコーダモデルにインスパイアされたREACTアーキテクチャを提案する。
提案手法は,グループ活動の認識と理解において優れた精度を示すとともに,最先端のGAR手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T20:48:54Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - Dual Information Enhanced Multi-view Attributed Graph Clustering [11.624319530337038]
本稿では,Dual Information enhanced Multi-view Attributed Graph Clustering (DIAGC)法を提案する。
提案手法では,複数の視点からのコンセンサスと特定情報の探索を阻害する特定情報再構成(SIR)モジュールを提案する。
相互情報最大化(MIM)モジュールは、潜在高レベル表現と低レベル表現との合意を最大化し、高レベル表現が所望のクラスタリング構造を満たすことを可能にする。
論文 参考訳(メタデータ) (2022-11-28T01:18:04Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z) - Watching You: Global-guided Reciprocal Learning for Video-based Person
Re-identification [82.6971648465279]
映像に基づくRe-IDのための新しいグローバルガイド相互学習フレームワークを提案する。
我々のアプローチは他の最先端のアプローチよりも優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-03-07T12:27:42Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。