論文の概要: Unconstrained Body Recognition at Altitude and Range: Comparing Four Approaches
- arxiv url: http://arxiv.org/abs/2502.07130v1
- Date: Mon, 10 Feb 2025 23:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:32.832668
- Title: Unconstrained Body Recognition at Altitude and Range: Comparing Four Approaches
- Title(参考訳): 高度・射程における非拘束体認識:4つのアプローチの比較
- Authors: Blake A Myers, Matthew Q Hill, Veda Nandan Gandi, Thomas M Metz, Alice J O'Toole,
- Abstract要約: 我々は、時間とともに安定している永続的な身体形状の特徴を学習することに集中する。
視覚変換器(ViT)とSwin-ViTモデルに基づく身体識別モデルを提案する。
すべてのモデルは、9つのデータベースにまたがる約5Kアイデンティティの190万以上の画像の大規模で多様なデータセットでトレーニングされている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study presents an investigation of four distinct approaches to long-term person identification using body shape. Unlike short-term re-identification systems that rely on temporary features (e.g., clothing), we focus on learning persistent body shape characteristics that remain stable over time. We introduce a body identification model based on a Vision Transformer (ViT) (Body Identification from Diverse Datasets, BIDDS) and on a Swin-ViT model (Swin-BIDDS). We also expand on previous approaches based on the Linguistic and Non-linguistic Core ResNet Identity Models (LCRIM and NLCRIM), but with improved training. All models are trained on a large and diverse dataset of over 1.9 million images of approximately 5k identities across 9 databases. Performance was evaluated on standard re-identification benchmark datasets (MARS, MSMT17, Outdoor Gait, DeepChange) and on an unconstrained dataset that includes images at a distance (from close-range to 1000m), at altitude (from an unmanned aerial vehicle, UAV), and with clothing change. A comparative analysis across these models provides insights into how different backbone architectures and input image sizes impact long-term body identification performance across real-world conditions.
- Abstract(参考訳): 本研究では,身体形状を用いた長期人物識別への4つのアプローチについて検討した。
一時的特徴(衣服など)に依存する短期的再識別システムとは異なり、時間とともに安定した身体形状の特徴を学習することに注力する。
本研究では,視覚変換器(ViT)とSwin-ViTモデル(Swin-BIDDS)に基づく身体識別モデルを提案する。
また、Lingguistic and Non-Luistic Core ResNet Identity Models (LCRIM と NLCRIM) に基づく以前のアプローチも拡張したが、トレーニングは改善された。
すべてのモデルは、9つのデータベースにまたがる約5Kアイデンティティの190万以上の画像の大規模で多様なデータセットでトレーニングされている。
標準的な再識別ベンチマークデータセット(MARS, MSMT17, Outdoor Gait, DeepChange)と、距離(近距離から1000m)、高度(無人航空機, UAV)、衣服の変化を含む、制約のないデータセットのパフォーマンスを評価した。
これらのモデルの比較分析は、異なるバックボーンアーキテクチャと入力画像サイズが、現実世界の環境における長期的な身体識別性能にどのように影響するかを洞察する。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - AG-ReID.v2: Bridging Aerial and Ground Views for Person Re-identification [39.58286453178339]
空中人物再識別(Re-ID)は、コンピュータビジョンにおいて固有の課題を提示する。
AG-ReID.v2は、空中および地上の混合シナリオにおいて、人物Re-ID用に特別に設計されたデータセットである。
このデータセットは、1,615人のユニークな個人の100,502枚の画像で構成され、それぞれに一致するIDと15のソフト属性ラベルが付加されている。
論文 参考訳(メタデータ) (2024-01-05T04:53:33Z) - Human Body Model based ID using Shape and Pose Parameters [5.354995138019151]
本稿では,人体モデルに基づく識別システム(HMID)について述べる。
ポーズと形状の出力を維持しつつ, 形状推定と生体認証の改善と安定化を図るために, さらなる損失を提案する。
論文 参考訳(メタデータ) (2023-12-06T01:51:54Z) - Shape-Erased Feature Learning for Visible-Infrared Person
Re-Identification [90.39454748065558]
体型は、VI-ReIDにとって重要なモダリティシェードの1つである。
本稿では,2つの部分空間におけるモダリティ共有特徴を関連づける形状学習パラダイムを提案する。
SYSU-MM01, RegDB, HITSZ-VCMデータセットを用いた実験により, 本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-09T10:22:10Z) - Benchmarking person re-identification datasets and approaches for
practical real-world implementations [1.0079626733116613]
人物再識別(Re-ID)は注目されている。
しかし、そのようなRe-IDモデルが新しい都市や環境に配備される場合、セキュリティカメラのネットワーク内の人々を探すタスクは、重要なドメインシフトに直面している可能性が高い。
本稿では、ライブオペレーションにおける教師なしデプロイメントに適したデータセットの評価方法について、Re-IDアプローチとトレーニングデータセットの完全な評価手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T03:45:38Z) - Towards a Deeper Understanding of Skeleton-based Gait Recognition [4.812321790984493]
近年、ほとんどの歩行認識法は、人のシルエットを使って歩行の特徴を抽出している。
モデルに基づく手法はこれらの問題に悩まされず、身体関節の時間運動を表現することができる。
本研究では,高次入力と残差ネットワークを組み合わせたグラフ畳み込みネットワーク(GCN)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-16T18:23:37Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - RealGait: Gait Recognition for Person Re-Identification [79.67088297584762]
我々は,既存の映像人物の再識別課題からシルエットを抽出し,制約のない方法で歩く1,404人からなる新たな歩行データセットを構築した。
以上の結果から、実際の監視シナリオにおける歩行による認識は実現可能であり、その基盤となる歩行パターンが、実際にビデオの人物認識が機能する真の理由である可能性が示唆された。
論文 参考訳(メタデータ) (2022-01-13T06:30:56Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - View-Invariant Gait Recognition with Attentive Recurrent Learning of
Partial Representations [27.33579145744285]
本稿では,まず,フレームレベルの畳み込み特徴から歩行畳み込みエネルギーマップ(GCEM)を抽出するネットワークを提案する。
次に、GCEMの分割されたビンから学ぶために双方向ニューラルネットワークを採用し、学習された部分的リカレント表現の関係を利用する。
提案手法は2つの大規模CASIA-BとOU-Mの歩行データセットで広範囲に検証されている。
論文 参考訳(メタデータ) (2020-10-18T20:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。