論文の概要: Concentrated Multi-Grained Multi-Attention Network for Video Based
Person Re-Identification
- arxiv url: http://arxiv.org/abs/2009.13019v1
- Date: Mon, 28 Sep 2020 02:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 21:58:23.791544
- Title: Concentrated Multi-Grained Multi-Attention Network for Video Based
Person Re-Identification
- Title(参考訳): 映像に基づく人物再同定のための集中型マルチグラインドマルチアテンションネットワーク
- Authors: Panwen Hu, Jiazhen Liu and Rui Huang
- Abstract要約: 咬合はビデオベースのRe-ID(Re-ID)タスクにおいて依然として深刻な問題である。
集中型多粒性マルチアテンションネットワーク(CMMANet)を提案する。
- 参考スコア(独自算出の注目度): 5.761429719197307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occlusion is still a severe problem in the video-based Re-IDentification
(Re-ID) task, which has a great impact on the success rate. The attention
mechanism has been proved to be helpful in solving the occlusion problem by a
large number of existing methods. However, their attention mechanisms still
lack the capability to extract sufficient discriminative information into the
final representations from the videos. The single attention module scheme
employed by existing methods cannot exploit multi-scale spatial cues, and the
attention of the single module will be dispersed by multiple salient parts of
the person. In this paper, we propose a Concentrated Multi-grained
Multi-Attention Network (CMMANet) where two multi-attention modules are
designed to extract multi-grained information through processing multi-scale
intermediate features. Furthermore, multiple attention submodules in each
multi-attention module can automatically discover multiple discriminative
regions of the video frames. To achieve this goal, we introduce a diversity
loss to diversify the submodules in each multi-attention module, and a
concentration loss to integrate their attention responses so that each
submodule can strongly focus on a specific meaningful part. The experimental
results show that the proposed approach outperforms the state-of-the-art
methods by large margins on multiple public datasets.
- Abstract(参考訳): 咬合はビデオベースのRe-ID(Re-ID)タスクにおいて依然として深刻な問題であり、これは成功率に大きな影響を与える。
注意機構は、多くの既存手法による閉塞問題の解決に有用であることが証明されている。
しかし、それらの注意機構は、ビデオから最終的な表現に十分な識別情報を抽出する能力に欠ける。
既存の手法で採用されているシングルアテンション・モジュール・スキームでは,マルチスケールな空間的手がかりが利用できないため,個人の複数のサニエント部分によってシングルアテンション・モジュールの注意が分散される。
本稿では,2つのマルチアテンションモジュールを設計し,マルチスケールの中間機能を処理して多粒度情報を抽出する,集中型マルチアテンションネットワーク(CMMANet)を提案する。
さらに、マルチアテンションモジュール内の複数のアテンションサブモジュールは、ビデオフレームの複数の識別領域を自動的に発見することができる。
この目的を達成するために,マルチアテンションモジュールのサブモジュールを多様化するための多様性損失と,それぞれのサブモジュールが特定の意味のある部分に集中できるように注意応答を統合するための集中損失を導入する。
実験の結果,提案手法は複数の公開データセットに対して,最先端の手法よりも大きなマージンを有することがわかった。
関連論文リスト
- U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Towards Generalized Multi-stage Clustering: Multi-view Self-distillation [10.368796552760571]
既存のマルチステージクラスタリング手法は、独立して複数のビューから健全な特徴を学習し、クラスタリングタスクを実行する。
本稿では,多視点自己蒸留(DistilMVC)を導入し,ラベル分布の暗黒知識を抽出する多段階深層MVCフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-29T03:35:34Z) - Video-based Cross-modal Auxiliary Network for Multimodal Sentiment
Analysis [16.930624128228658]
音声特徴マップモジュールとクロスモーダル選択モジュールから構成されるビデオベースクロスモーダル補助ネットワーク(VCAN)を提案する。
VCANは、マルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2022-08-30T02:08:06Z) - Multimodal Multi-Head Convolutional Attention with Various Kernel Sizes
for Medical Image Super-Resolution [56.622832383316215]
超解像CTおよびMRIスキャンのための新しいマルチヘッド畳み込みアテンションモジュールを提案する。
我々の注目モジュールは、畳み込み操作を用いて、複数の入力テンソルに対して共同的な空間チャネルアテンションを行う。
それぞれの頭部は空間的注意に対する特定の減少率に応じた受容野の大きさの異なる複数の注意ヘッドを導入している。
論文 参考訳(メタデータ) (2022-04-08T07:56:55Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Unsupervised Person Re-Identification with Multi-Label Learning Guided
Self-Paced Clustering [48.31017226618255]
近年、未監修者再確認(Re-ID)が注目されています。
本論文では,教師なしのRe-IDを,MLC(Multi-label Learning Guide Self-paced Clustering)と呼ばれる概念的に斬新かつ単純なフレームワークで対処する。
MLCは主に3つの重要なモジュール(マルチスケールネットワーク、マルチラベル学習モジュール、セルフペースクラスタリングモジュール)で識別的特徴を学習する。
論文 参考訳(メタデータ) (2021-03-08T07:30:13Z) - Feature Boosting, Suppression, and Diversification for Fine-Grained
Visual Classification [0.0]
識別的局所領域からの特徴表現の学習は、きめ細かい視覚的分類において重要な役割を担っている。
既存の畳み込みニューラルネットワークに簡単に接続できる2つの軽量モジュールを導入する。
本手法は,いくつかのベンチマークきめ細かなデータセットにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-04T01:49:53Z) - Fine-Grained Visual Classification via Simultaneously Learning of
Multi-regional Multi-grained Features [15.71408474557042]
きめ細かい視覚分類は、同じメタクラスに属するサブクラスを認識する難しいタスクである。
本稿では,マルチリージョンのマルチグラニュアルな特徴をマイニングすることが,この課題の鍵となることを論じる。
4つの画像分類データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-01-31T03:46:10Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。