論文の概要: Reference-Aided Part-Aligned Feature Disentangling for Video Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2103.11319v1
- Date: Sun, 21 Mar 2021 06:53:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:33:37.802989
- Title: Reference-Aided Part-Aligned Feature Disentangling for Video Person
Re-Identification
- Title(参考訳): 映像人物再同定のための参照支援部分アライメント特徴分散
- Authors: Guoqing Zhang, Yuhao Chen, Yang Dai, Yuhui Zheng, Yi Wu
- Abstract要約: 異なる部分の頑健な特徴を分離するためのtextbfReference-textbfAided textbfPart-textbfAligned (textbfRAPA) フレームワークを提案する。
両方のモジュールを使用することで、ビデオ中の歩行者の情報的な部分が整列し、より識別的な特徴表現が生成される。
- 参考スコア(独自算出の注目度): 18.13546384207381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, video-based person re-identification (re-ID) has drawn increasing
attention in compute vision community because of its practical application
prospects. Due to the inaccurate person detections and pose changes, pedestrian
misalignment significantly increases the difficulty of feature extraction and
matching. To address this problem, in this paper, we propose a
\textbf{R}eference-\textbf{A}ided \textbf{P}art-\textbf{A}ligned
(\textbf{RAPA}) framework to disentangle robust features of different parts.
Firstly, in order to obtain better references between different videos, a
pose-based reference feature learning module is introduced. Secondly, an
effective relation-based part feature disentangling module is explored to align
frames within each video. By means of using both modules, the informative parts
of pedestrian in videos are well aligned and more discriminative feature
representation is generated. Comprehensive experiments on three widely-used
benchmarks, i.e. iLIDS-VID, PRID-2011 and MARS datasets verify the
effectiveness of the proposed framework. Our code will be made publicly
available.
- Abstract(参考訳): 近年,映像に基づく人物再識別 (re-ID) が実用化され,コンピュータビジョンコミュニティに注目が集まっている。
不正確な人物検出とポーズの変化により、歩行者のミスアライメントは特徴抽出とマッチングの難しさを著しく増大させる。
この問題に対処するため,本稿では,異なる部分のロバストな特徴を解消するための, \textbf{r}eference-\textbf{a}ided \textbf{p}art-\textbf{a}ligned (\textbf{rapa})フレームワークを提案する。
まず、異なるビデオ間の参照をより良くするために、ポーズベースの参照特徴学習モジュールを導入する。
第2に,ビデオ内のフレームのアライメントを効果的に行うために,関係性に基づく機能分離モジュールを探索する。
両方のモジュールを使用することにより、ビデオ中の歩行者の情報的な部分が整列し、より識別的な特徴表現が生成される。
広く使われている3つのベンチマーク、すなわち、包括的な実験
iLIDS-VID、PRID-2011、MARSデータセットは提案フレームワークの有効性を検証する。
私たちのコードは公開されます。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Support-Set Based Cross-Supervision for Video Grounding [98.29089558426399]
サポートセットベースのクロススーパービジョン(Sscs)モジュールは、追加の推論コストなしでトレーニングフェーズ中に既存のメソッドを改善することができる。
提案するSscsモジュールは、識別的コントラスト目的と生成的キャプション目的の2つの主要成分を含む。
我々は3つの挑戦的データセット上でSscsを広範囲に評価し、我々の手法が最先端の手法を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2021-08-24T08:25:26Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z) - FOCAL: A Forgery Localization Framework based on Video Coding
Self-Consistency [26.834506269499094]
本稿では,ビデオフレーム内における符号化トレースの自己整合性を検証するビデオフォージェリーローカライゼーションフレームワークを提案する。
全体フレームワークは、時間的スプライシングと空間的スプライシングの2つの典型的なフォージェリーシナリオで検証された。
実験結果から,空間スプライシングにおける時間的スプライシングの局所化に関する最先端技術の改善と,空間スプライシングの新たな取組における有望な性能が示された。
論文 参考訳(メタデータ) (2020-08-24T13:55:14Z) - Exploiting Visual Semantic Reasoning for Video-Text Retrieval [14.466809435818984]
フレーム領域間の推論を利用するビジュアルセマンティック拡張推論ネットワーク(ViSERN)を提案する。
ランダムウォークルールに基づくグラフ畳み込みネットワークによる推論を行い、意味的関係に関わる領域の特徴を生成する。
推論の利点により、領域間の意味的相互作用が考慮され、冗長性の影響が抑制される。
論文 参考訳(メタデータ) (2020-06-16T02:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。