論文の概要: ShARc: Shape and Appearance Recognition for Person Identification
In-the-wild
- arxiv url: http://arxiv.org/abs/2310.15946v1
- Date: Tue, 24 Oct 2023 15:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:59:22.839113
- Title: ShARc: Shape and Appearance Recognition for Person Identification
In-the-wild
- Title(参考訳): ShARc:人物識別のための形状と外観認識
- Authors: Haidong Zhu, Wanrong Zheng, Zhaoheng Zheng, Ram Nevatia
- Abstract要約: 制御されていない環境での映像に基づく人物識別のためのマルチモーダルアプローチであるShARcを提案する。
PSEは、バイナライズされたシルエット、骨格運動、および3次元体形を介して体形を符号化する。
AAEは、注意に基づく特徴集約と平均的な特徴集約という、時間的特徴集約の2つのレベルを提供する。
- 参考スコア(独自算出の注目度): 13.38967631982226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying individuals in unconstrained video settings is a valuable yet
challenging task in biometric analysis due to variations in appearances,
environments, degradations, and occlusions. In this paper, we present ShARc, a
multimodal approach for video-based person identification in uncontrolled
environments that emphasizes 3-D body shape, pose, and appearance. We introduce
two encoders: a Pose and Shape Encoder (PSE) and an Aggregated Appearance
Encoder (AAE). PSE encodes the body shape via binarized silhouettes, skeleton
motions, and 3-D body shape, while AAE provides two levels of temporal
appearance feature aggregation: attention-based feature aggregation and
averaging aggregation. For attention-based feature aggregation, we employ
spatial and temporal attention to focus on key areas for person distinction.
For averaging aggregation, we introduce a novel flattening layer after
averaging to extract more distinguishable information and reduce overfitting of
attention. We utilize centroid feature averaging for gallery registration. We
demonstrate significant improvements over existing state-of-the-art methods on
public datasets, including CCVID, MEVID, and BRIAR.
- Abstract(参考訳): 非拘束的なビデオ設定で個人を特定することは、外見、環境、劣化、および咬合の多様性のため、生体計測分析において有益だが困難なタスクである。
本稿では,3次元の身体形状,ポーズ,外観を重視した映像に基づく人物識別のためのマルチモーダル手法であるShARcを提案する。
本稿では,PSE(Pose and Shape Encoder)とAAE(Aggregated Appearance Encoder)の2つのエンコーダを紹介する。
pseは2次元シルエット、骨格運動、および3次元体形状を介して体形を符号化し、aaeは注意に基づく特徴集約と平均的なアグリゲーションの2段階の時間的外観特徴集約を提供する。
注意に基づく特徴集約では、空間的・時間的注意を個人区別のための重要な領域に向ける。
また,アグリゲーションを平均化するために,アグリゲーション後の新しい平ら化層を導入し,より識別可能な情報を抽出し,注目の過度な適合を低減する。
ギャラリー登録にはcentroid feature averagingを利用する。
我々は、ccvid、mevid、briarなど、パブリックデータセットにおける既存の最先端のメソッドに対する大幅な改善を示す。
関連論文リスト
- PointCG: Self-supervised Point Cloud Learning via Joint Completion and Generation [32.04698431036215]
本稿では,マスク付きポイントモデリング(MPM)と3D-to-2D生成という2つの一般的な手法を,事前学習フレームワーク内にプリテキストタスクとして統合する。
我々はこれらの2つの手法によって提供される空間的認識と精密な監督を活用して、それぞれの限界に対処する。
論文 参考訳(メタデータ) (2024-11-09T02:38:29Z) - 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Living Scenes: Multi-object Relocalization and Reconstruction in Changing 3D Environments [20.890476387720483]
MoREは進化する環境における多目的再局在と再構成のための新しいアプローチである。
これらの環境を「生きたシーン」とみなし、異なる時点のスキャンをオブジェクトインスタンスの3次元再構成に変換する問題について考察する。
論文 参考訳(メタデータ) (2023-12-14T17:09:57Z) - PSVT: End-to-End Multi-person 3D Pose and Shape Estimation with
Progressive Video Transformers [71.72888202522644]
本稿では,プログレッシブ・ビデオ・トランスフォーマーを用いたエンドツーエンドのマルチパーソン3D・形状推定フレームワークを提案する。
PSVTでは、時空間エンコーダ(PGA)は空間オブジェクト間のグローバルな特徴依存性をキャプチャする。
時間の経過とともにオブジェクトの分散を処理するために、プログレッシブデコーディングの新しいスキームが使用される。
論文 参考訳(メタデータ) (2023-03-16T09:55:43Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。