論文の概要: Channel Recurrent Attention Networks for Video Pedestrian Retrieval
- arxiv url: http://arxiv.org/abs/2010.03108v1
- Date: Wed, 7 Oct 2020 02:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:26:43.265754
- Title: Channel Recurrent Attention Networks for Video Pedestrian Retrieval
- Title(参考訳): 映像歩行者検索のためのチャンネルリカレントアテンションネットワーク
- Authors: Pengfei Fang, Pan Ji, Jieming Zhou, Lars Petersson, Mehrtash Harandi
- Abstract要約: 入力特徴写像の各要素あたりの注意値を生成するフルアテンションは、視覚的タスクにおいて有益であることが証明されている。
本稿では,映像歩行者検索の課題に対して,チャンネルリカレントアレントアレントアレントアレントネットワーク(チャネルリカレントアレントアレントアレントアレントネットワーク)を提案する。
- 参考スコア(独自算出の注目度): 39.05114711581366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Full attention, which generates an attention value per element of the input
feature maps, has been successfully demonstrated to be beneficial in visual
tasks. In this work, we propose a fully attentional network, termed {\it
channel recurrent attention network}, for the task of video pedestrian
retrieval. The main attention unit, \textit{channel recurrent attention},
identifies attention maps at the frame level by jointly leveraging spatial and
channel patterns via a recurrent neural network. This channel recurrent
attention is designed to build a global receptive field by recurrently
receiving and learning the spatial vectors. Then, a \textit{set aggregation}
cell is employed to generate a compact video representation. Empirical
experimental results demonstrate the superior performance of the proposed deep
network, outperforming current state-of-the-art results across standard video
person retrieval benchmarks, and a thorough ablation study shows the
effectiveness of the proposed units.
- Abstract(参考訳): 入力特徴マップの要素ごとに注意値を生成するフルアテンションは、視覚タスクにおいて有益であることが証明されている。
本研究では,ビデオ歩行者検索の課題に対して,完全注意ネットワークである「チャンネル再帰注意ネットワーク」を提案する。
メインアテンションユニットである \textit{ channel recurrent attention} は、リカレントニューラルネットワークを介して空間パターンとチャネルパターンを併用することにより、フレームレベルでのアテンションマップを特定する。
このチャネルリカレントアテンションは、空間ベクトルを繰り返し受信して学習することにより、グローバルな受容場を構築するように設計されている。
次に、コンパクトビデオ表現を生成するために \textit{set aggregation} セルを用いる。
実験実験により, 提案するディープネットワークの性能が向上し, 標準ビデオパーソン検索ベンチマークにおける最新結果を上回り, 提案ユニットの有効性を徹底的に検証した。
関連論文リスト
- Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Efficient Multi-Scale Attention Module with Cross-Spatial Learning [4.046170185945849]
効率的なマルチスケールアテンション(EMA)モジュールを提案する。
チャネルごとの情報保持と計算オーバーヘッドの低減に重点を置いている。
我々は画像分類と物体検出タスクについて広範囲にわたるアブレーション研究と実験を行った。
論文 参考訳(メタデータ) (2023-05-23T00:35:47Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z) - Coordinate Attention for Efficient Mobile Network Design [96.40415345942186]
チャネルの注目に位置情報を埋め込むことにより,モバイルネットワークに対する新たな注意メカニズムを提案する。
2次元グローバルプーリングにより特徴テンソルを単一特徴ベクトルに変換するチャネルアテンションとは異なり、座標アテンションはチャネルアテンションを2つの1次元特徴符号化プロセスに分解する。
座標の注意はImageNetの分類に有用であり、オブジェクト検出やセマンティックセグメンテーションといった下流タスクではよりうまく振る舞う。
論文 参考訳(メタデータ) (2021-03-04T09:18:02Z) - A Flow-Guided Mutual Attention Network for Video-Based Person
Re-Identification [25.217641512619178]
Person ReIDは多くの分析および監視アプリケーションにおいて難しい問題である。
ビデオベースのReIDは最近、特徴識別時間情報をキャプチャできるので、大きな関心を集めている。
本稿では、ReIDのための追加のキューとして、人物の動作パターンを探索する。
論文 参考訳(メタデータ) (2020-08-09T18:58:11Z) - Deep Reinforced Attention Learning for Quality-Aware Visual Recognition [73.15276998621582]
我々は,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築した。
メタ批評家ネットワークを導入し、メインネットワークにおける注目マップの質を評価する。
論文 参考訳(メタデータ) (2020-07-13T02:44:38Z) - Channel-Attention Dense U-Net for Multichannel Speech Enhancement [21.94418736688929]
我々は、ビームフォーミングを模倣するチャネルアテンション機構をディープアーキテクチャ内に導入する。
我々は,CHiME-3データセットの最先端アプローチに対して,ネットワークの優れた性能を示す。
論文 参考訳(メタデータ) (2020-01-30T19:56:52Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。