Fugu-MT 論文翻訳(概要): ShARc: Shape and Appearance Recognition for Person Identification In-the-wild

論文の概要: ShARc: Shape and Appearance Recognition for Person Identification In-the-wild

arxiv url: http://arxiv.org/abs/2310.15946v1
Date: Tue, 24 Oct 2023 15:47:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 17:59:22.839113
Title: ShARc: Shape and Appearance Recognition for Person Identification In-the-wild
Title（参考訳）: ShARc:人物識別のための形状と外観認識
Authors: Haidong Zhu, Wanrong Zheng, Zhaoheng Zheng, Ram Nevatia
Abstract要約: 制御されていない環境での映像に基づく人物識別のためのマルチモーダルアプローチであるShARcを提案する。 PSEは、バイナライズされたシルエット、骨格運動、および3次元体形を介して体形を符号化する。 AAEは、注意に基づく特徴集約と平均的な特徴集約という、時間的特徴集約の2つのレベルを提供する。
参考スコア（独自算出の注目度）: 13.38967631982226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Identifying individuals in unconstrained video settings is a valuable yet challenging task in biometric analysis due to variations in appearances, environments, degradations, and occlusions. In this paper, we present ShARc, a multimodal approach for video-based person identification in uncontrolled environments that emphasizes 3-D body shape, pose, and appearance. We introduce two encoders: a Pose and Shape Encoder (PSE) and an Aggregated Appearance Encoder (AAE). PSE encodes the body shape via binarized silhouettes, skeleton motions, and 3-D body shape, while AAE provides two levels of temporal appearance feature aggregation: attention-based feature aggregation and averaging aggregation. For attention-based feature aggregation, we employ spatial and temporal attention to focus on key areas for person distinction. For averaging aggregation, we introduce a novel flattening layer after averaging to extract more distinguishable information and reduce overfitting of attention. We utilize centroid feature averaging for gallery registration. We demonstrate significant improvements over existing state-of-the-art methods on public datasets, including CCVID, MEVID, and BRIAR.
Abstract（参考訳）: 非拘束的なビデオ設定で個人を特定することは、外見、環境、劣化、および咬合の多様性のため、生体計測分析において有益だが困難なタスクである。本稿では,3次元の身体形状,ポーズ,外観を重視した映像に基づく人物識別のためのマルチモーダル手法であるShARcを提案する。本稿では,PSE(Pose and Shape Encoder)とAAE(Aggregated Appearance Encoder)の2つのエンコーダを紹介する。 pseは2次元シルエット、骨格運動、および3次元体形状を介して体形を符号化し、aaeは注意に基づく特徴集約と平均的なアグリゲーションの2段階の時間的外観特徴集約を提供する。注意に基づく特徴集約では、空間的・時間的注意を個人区別のための重要な領域に向ける。また,アグリゲーションを平均化するために,アグリゲーション後の新しい平ら化層を導入し,より識別可能な情報を抽出し,注目の過度な適合を低減する。ギャラリー登録にはcentroid feature averagingを利用する。我々は、ccvid、mevid、briarなど、パブリックデータセットにおける既存の最先端のメソッドに対する大幅な改善を示す。

関連論文リスト

Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [4.196626042312499]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文参考訳（メタデータ） (2025-06-17T07:04:07Z)
PointCG: Self-supervised Point Cloud Learning via Joint Completion and Generation [32.04698431036215]
本稿では,マスク付きポイントモデリング(MPM)と3D-to-2D生成という2つの一般的な手法を,事前学習フレームワーク内にプリテキストタスクとして統合する。我々はこれらの2つの手法によって提供される空間的認識と精密な監督を活用して、それぞれの限界に対処する。
論文参考訳（メタデータ） (2024-11-09T02:38:29Z)
3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文参考訳（メタデータ） (2024-08-19T10:08:25Z)
Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。 textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。 SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文参考訳（メタデータ） (2024-03-02T08:18:57Z)
Living Scenes: Multi-object Relocalization and Reconstruction in Changing 3D Environments [20.890476387720483]
MoREは進化する環境における多目的再局在と再構成のための新しいアプローチである。これらの環境を「生きたシーン」とみなし、異なる時点のスキャンをオブジェクトインスタンスの3次元再構成に変換する問題について考察する。
論文参考訳（メタデータ） (2023-12-14T17:09:57Z)
PSVT: End-to-End Multi-person 3D Pose and Shape Estimation with Progressive Video Transformers [71.72888202522644]
本稿では,プログレッシブ・ビデオ・トランスフォーマーを用いたエンドツーエンドのマルチパーソン3D・形状推定フレームワークを提案する。 PSVTでは、時空間エンコーダ(PGA)は空間オブジェクト間のグローバルな特徴依存性をキャプチャする。時間の経過とともにオブジェクトの分散を処理するために、プログレッシブデコーディングの新しいスキームが使用される。
論文参考訳（メタデータ） (2023-03-16T09:55:43Z)
HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4～12%向上したことを観察した。
論文参考訳（メタデータ） (2021-10-05T01:18:15Z)
Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。 3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2021-09-06T09:06:17Z)
Spatial-Temporal Correlation and Topology Learning for Person Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。 CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文参考訳（メタデータ） (2021-04-15T14:32:12Z)
A Graph Attention Spatio-temporal Convolutional Network for 3D Human Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文参考訳（メタデータ） (2020-03-11T14:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。