論文の概要: Dissecting Human Body Representations in Deep Networks Trained for Person Identification
- arxiv url: http://arxiv.org/abs/2502.15934v1
- Date: Fri, 21 Feb 2025 21:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:27.728083
- Title: Dissecting Human Body Representations in Deep Networks Trained for Person Identification
- Title(参考訳): 人物識別のための深層ネットワークにおける人体表現の分離
- Authors: Thomas M Metz, Matthew Q Hill, Blake Myers, Veda Nandan Gandi, Rahul Chilakapati, Alice J O'Toole,
- Abstract要約: 我々は、4,788のアイデンティティと9つのデータベースにわたる190万の画像でトレーニングされた4つのボディ識別ネットワークから、ボディイメージの埋め込みを分析する。
顔は身体識別アルゴリズムの精度に寄与し、これらのアルゴリズムは顔の特定をある程度行うことができる。
我々は,学習した埋め込み空間上で直接的かつ選択的に操作することで,追加の訓練を伴わずに識別精度を向上できることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Long-term body identification algorithms have emerged recently with the increased availability of high-quality training data. We seek to fill knowledge gaps about these models by analyzing body image embeddings from four body identification networks trained with 1.9 million images across 4,788 identities and 9 databases. By analyzing a diverse range of architectures (ViT, SWIN-ViT, CNN, and linguistically primed CNN), we first show that the face contributes to the accuracy of body identification algorithms and that these algorithms can identify faces to some extent -- with no explicit face training. Second, we show that representations (embeddings) generated by body identification algorithms encode information about gender, as well as image-based information including view (yaw) and even the dataset from which the image originated. Third, we demonstrate that identification accuracy can be improved without additional training by operating directly and selectively on the learned embedding space. Leveraging principal component analysis (PCA), identity comparisons were consistently more accurate in subspaces that eliminated dimensions that explained large amounts of variance. These three findings were surprisingly consistent across architectures and test datasets. This work represents the first analysis of body representations produced by long-term re-identification networks trained on challenging unconstrained datasets.
- Abstract(参考訳): 近年,高品質なトレーニングデータの増加に伴い,身体識別アルゴリズムが出現している。
我々は、4,788のアイデンティティと9つのデータベースで190万の画像で訓練された4つのボディ識別ネットワークから、ボディイメージの埋め込みを分析して、これらのモデルに関する知識ギャップを埋めようとしている。
多様なアーキテクチャ(ViT、SWIN-ViT、CNN、言語的に素数化されたCNN)を分析して、まず、顔が身体識別アルゴリズムの精度に寄与し、これらのアルゴリズムが顔をある程度識別できることを示した。
第2に,身体識別アルゴリズムが生成した表現(埋め込み)は,性別に関する情報を符号化し,画像が生成した画像のビュー(yaw)やデータセットを含む画像ベース情報を符号化することを示した。
第3に,学習した埋め込み空間上で直接的かつ選択的に操作することで,追加の訓練を伴わずに識別精度を向上できることを示す。
主成分分析(PCA)を活用して、多量の分散を説明できる次元を排除した部分空間において、アイデンティティ比較は一貫して正確であった。
これらの3つの発見は、アーキテクチャとテストデータセット間で驚くほど一貫性があった。
この研究は、制約のないデータセットに挑戦してトレーニングされた長期的な再識別ネットワークによって生成された身体表現の最初の分析である。
関連論文リスト
- Unconstrained Body Recognition at Altitude and Range: Comparing Four Approaches [0.0]
我々は、時間とともに安定している永続的な身体形状の特徴を学習することに集中する。
視覚変換器(ViT)とSwin-ViTモデルに基づく身体識別モデルを提案する。
すべてのモデルは、9つのデータベースにまたがる約5Kアイデンティティの190万以上の画像の大規模で多様なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2025-02-10T23:49:06Z) - LightFFDNets: Lightweight Convolutional Neural Networks for Rapid Facial Forgery Detection [0.0]
本研究では,Fake-Vs-Real-Faces [10]と140k Real and Fake Faces [61]データセットを用いた画像処理による偽造検出に焦点を当てた。
これらの画像を用いて偽造検出を行うために,2つの軽量ディープラーニングモデルを提案する。
提案した軽量ディープラーニングモデルは,顔画像の偽造を正確に,かつ効率的に検出できることが示されている。
論文 参考訳(メタデータ) (2024-11-18T18:44:10Z) - Analyzing the Impact of Shape & Context on the Face Recognition
Performance of Deep Networks [2.0099255688059907]
顔画像におけるベースアイデンティティの基底となる3次元形状の変化が全体像を歪めるかを分析する。
本実験は, 正確な顔マッチングにおける顔形状の重要性を実証し, ネットワークトレーニングにおける文脈データの重要性を裏付けるものである。
論文 参考訳(メタデータ) (2022-08-05T05:32:07Z) - Finding Facial Forgery Artifacts with Parts-Based Detectors [73.08584805913813]
顔の個々の部分に焦点を絞った一連の偽造検知システムを設計する。
これらの検出器を用いて、FaceForensics++、Celeb-DF、Facebook Deepfake Detection Challengeデータセットの詳細な実験分析を行う。
論文 参考訳(メタデータ) (2021-09-21T16:18:45Z) - A 3D GAN for Improved Large-pose Facial Recognition [3.791440300377753]
深層畳み込みニューラルネットワークを用いた顔認識は、顔画像の大きなデータセットの可用性に依存している。
近年の研究では、アイデンティティからポーズを離す方法が不十分であることが示されている。
本研究では,GAN発生器に3次元モーフィラブルモデルを組み込むことにより,野生画像から非線形テクスチャモデルを学習する。
これにより、新しい合成IDの生成と、アイデンティティを損なうことなくポーズ、照明、表現の操作が可能になります。
論文 参考訳(メタデータ) (2020-12-18T22:41:15Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Generalized Iris Presentation Attack Detection Algorithm under
Cross-Database Settings [63.90855798947425]
プレゼンテーションアタックは、バイオメトリックなモダリティの大部分に大きな課題をもたらす。
本稿では,汎用的な深層学習に基づくプレゼンテーション攻撃検出ネットワークであるMVANetを提案する。
これはハイブリッドアルゴリズムの単純さと成功、あるいは複数の検出ネットワークの融合にインスパイアされている。
論文 参考訳(メタデータ) (2020-10-25T22:42:27Z) - Person image generation with semantic attention network for person
re-identification [9.30413920076019]
本稿では,意味的注意ネットワークと呼ばれる新しい人物のポーズ誘導画像生成手法を提案する。
ネットワークはいくつかのセマンティックアテンションブロックで構成されており、各ブロックはポーズコードと衣服のテクスチャを保存および更新する。
他の方法と比較して、我々のネットワークはより優れた身体形状を特徴付けることができ、同時に衣服の属性を保持することができる。
論文 参考訳(メタデータ) (2020-08-18T12:18:51Z) - Structured Landmark Detection via Topology-Adapting Deep Graph Learning [75.20602712947016]
解剖学的顔と医学的ランドマーク検出のための新しいトポロジ適応深層グラフ学習手法を提案する。
提案手法は局所像特徴と大域形状特徴の両方を利用するグラフ信号を構成する。
3つの公開顔画像データセット(WFLW、300W、COFW-68)と3つの現実世界のX線医学データセット(ケパロメトリ、ハンド、ペルビス)で実験を行った。
論文 参考訳(メタデータ) (2020-04-17T11:55:03Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z) - Investigating the Impact of Inclusion in Face Recognition Training Data
on Individual Face Identification [93.5538147928669]
最新のオープンソースの顔認識システムであるArcFaceを、100万枚以上の散らばった画像を用いた大規模な顔識別実験で監査する。
モデルのトレーニングデータには79.71%、存在しない人には75.73%のランク1顔認証精度がある。
論文 参考訳(メタデータ) (2020-01-09T15:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。