論文の概要: Not Every Patch is Needed: Towards a More Efficient and Effective Backbone for Video-based Person Re-identification
- arxiv url: http://arxiv.org/abs/2501.16811v1
- Date: Tue, 28 Jan 2025 09:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:41:27.253393
- Title: Not Every Patch is Needed: Towards a More Efficient and Effective Backbone for Video-based Person Re-identification
- Title(参考訳): すべてのパッチが必要でない - ビデオベースの人物再識別のためのより効率的で効果的なバックボーンを目指して
- Authors: Lanyun Zhu, Tianrun Chen, Deyi Ji, Jieping Ye, Jun Liu,
- Abstract要約: 本稿では,映像に基づく人物再識別(ReID)のための,効果的かつ効率的なバックボーンを提案する。
ReIDビデオの異なるフレームは、しばしば小さな違いを示し、人間の比較的わずかな動きのため、多くの類似した領域を含む。
特徴抽出のための重要かつ非反復的なパッチのみを選択することにより,計算コストを削減するパッチ選択機構を導入する。
- 参考スコア(独自算出の注目度): 32.86287519276783
- License:
- Abstract: This paper proposes a new effective and efficient plug-and-play backbone for video-based person re-identification (ReID). Conventional video-based ReID methods typically use CNN or transformer backbones to extract deep features for every position in every sampled video frame. Here, we argue that this exhaustive feature extraction could be unnecessary, since we find that different frames in a ReID video often exhibit small differences and contain many similar regions due to the relatively slight movements of human beings. Inspired by this, a more selective, efficient paradigm is explored in this paper. Specifically, we introduce a patch selection mechanism to reduce computational cost by choosing only the crucial and non-repetitive patches for feature extraction. Additionally, we present a novel network structure that generates and utilizes pseudo frame global context to address the issue of incomplete views resulting from sparse inputs. By incorporating these new designs, our backbone can achieve both high performance and low computational cost. Extensive experiments on multiple datasets show that our approach reduces the computational cost by 74\% compared to ViT-B and 28\% compared to ResNet50, while the accuracy is on par with ViT-B and outperforms ResNet50 significantly.
- Abstract(参考訳): 本稿では,映像に基づく人物再識別(ReID)のための,効果的かつ効率的なバックボーンを提案する。
従来のビデオベースのReID手法では、典型的にはCNNまたはトランスフォーマーバックボーンを使用して、サンプリングされたビデオフレーム毎に、深い特徴を抽出する。
ReIDビデオの異なるフレームは、小さな差があり、人間の比較的わずかな動きのために多くの類似した領域を含むことが多いので、この徹底的な特徴抽出は不要である、と我々は論じる。
この問題に触発されて、より選択的で効率的なパラダイムを本論文で探求する。
具体的には,特徴抽出のための重要かつ非反復的なパッチのみを選択することにより,計算コストを削減するパッチ選択機構を導入する。
さらに,スパース入力による不完全ビューの問題に対処するために,擬似フレームグローバルコンテキストを生成し,活用する新しいネットワーク構造を提案する。
これらの新しい設計を取り入れることで、我々のバックボーンは高い性能と低い計算コストの両方を達成することができる。
複数のデータセットに対する大規模な実験により、我々の手法は、ViT-Bと比較して計算コストを74倍、ResNet50より28倍削減し、精度はViT-Bに匹敵し、ResNet50を著しく上回ることを示した。
関連論文リスト
- Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Efficient Meta-Tuning for Content-aware Neural Video Delivery [40.3731358963689]
計算コストを削減するために,EMT(Efficient Meta-Tuning)を提案する。
EMTは入力ビデオの最初のチャンクにメタ学習モデルを適用する。
本稿では,ビデオフレームから最も困難なパッチを抽出するための新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-07-20T06:47:10Z) - Multi-encoder Network for Parameter Reduction of a Kernel-based
Interpolation Architecture [10.08097582267397]
畳み込みニューラルネットワーク(CNN)はこの分野での最近の進歩の最前線にある。
これらのネットワークの多くは多くのパラメータを必要とし、多くのパラメータは重い重荷を意味する。
本稿では,一般的なフローレスカーネルネットワークにおけるパラメータ削減手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T16:02:55Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - VA-RED$^2$: Video Adaptive Redundancy Reduction [64.75692128294175]
我々は,入力依存の冗長性低減フレームワークva-red$2$を提案する。
ネットワークの重み付けと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習する。
私たちのフレームワークは、最先端の方法と比較して、計算(FLOP)の20% - 40%$削減を達成します。
論文 参考訳(メタデータ) (2021-02-15T22:57:52Z) - Deep Space-Time Video Upsampling Networks [47.62807427163614]
ビデオ超解像(VSR)とフレーム(FI)は伝統的なコンピュータビジョンの問題である。
本稿では, VSR と FI を効率よく融合して, 時空ビデオアップサンプリングを行うためのエンドツーエンドフレームワークを提案する。
その結果, 時間(x7速)とパラメータ数(30%)を基準線と比較し, 定量的, 質的にも良好な結果が得られた。
論文 参考訳(メタデータ) (2020-04-06T07:04:21Z) - Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文 参考訳(メタデータ) (2020-04-02T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。