論文の概要: Recognizing People by Body Shape Using Deep Networks of Images and Words
- arxiv url: http://arxiv.org/abs/2305.19160v1
- Date: Tue, 30 May 2023 16:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:15:04.233937
- Title: Recognizing People by Body Shape Using Deep Networks of Images and Words
- Title(参考訳): 画像と単語の深部ネットワークを用いた人体形状の認識
- Authors: Blake A. Myers, Lucas Jaggernauth, Thomas M. Metz, Matthew Q. Hill,
Veda Nandan Gandi, Carlos D. Castillo, Alice J. O'Toole
- Abstract要約: 距離や視点の変化による生体形状を生体計測として検討する。
本稿では,標準対象分類網と言語記述に基づく表現を組み合わせたアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common and important applications of person identification occur at distances
and viewpoints in which the face is not visible or is not sufficiently resolved
to be useful. We examine body shape as a biometric across distance and
viewpoint variation. We propose an approach that combines standard object
classification networks with representations based on linguistic (word-based)
descriptions of bodies. Algorithms with and without linguistic training were
compared on their ability to identify people from body shape in images captured
across a large range of distances/views (close-range, 100m, 200m, 270m, 300m,
370m, 400m, 490m, 500m, 600m, and at elevated pitch in images taken by an
unmanned aerial vehicle [UAV]). Accuracy, as measured by identity-match ranking
and false accept errors in an open-set test, was surprisingly good. For
identity-ranking, linguistic models were more accurate for close-range images,
whereas non-linguistic models fared better at intermediary distances. Fusion of
the linguistic and non-linguistic embeddings improved performance at all, but
the farthest distance. Although the non-linguistic model yielded fewer false
accepts at all distances, fusion of the linguistic and non-linguistic models
decreased false accepts for all, but the UAV images. We conclude that
linguistic and non-linguistic representations of body shape can offer
complementary identity information for bodies that can improve identification
in applications of interest.
- Abstract(参考訳): 人物識別の一般的かつ重要な応用は、顔が見えない、あるいは十分に解決されていないような距離や視点で発生する。
身体形状を距離と視点の変化のバイオメトリックとして検討する。
本稿では,標準対象分類ネットワークと,身体の言語的(単語ベース)記述に基づく表現を組み合わせる手法を提案する。
言語訓練をともなうアルゴリズムは,多岐にわたる距離/視点で撮影された画像(近距離,100m,200m,270m,300m,370m,400m,490m,500m,600m,無人航空機(uav)で撮影された画像の体型から人物を識別する能力について比較した。
オープンセットテストにおいて、IDマッチランキングと偽受け入れエラーによって測定された精度は驚くほど良好だった。
アイデンティティレベルの言語モデルは、近距離画像ではより正確であるが、非言語モデルは中間距離ではより正確であった。
言語的および非言語的埋め込みの融合は、パフォーマンスを全く改善したが、最も遠かった。
非言語モデルはあらゆる距離において偽の受け入れを減らしたが、言語モデルと非言語モデルの融合は、すべてにおいて偽の受け入れを減らした。
我々は、身体形状の言語的および非言語的表現は、興味のある応用における識別を改善する身体の相補的アイデンティティ情報を提供することができると結論づける。
関連論文リスト
- Towards Visual Syntactical Understanding [8.530698703124159]
本稿では,ディープニューラルネットワーク(DNN)が視覚的構文理解を備えているかを検討する。
画像中の「単語」を検出し, (ii) 検出された単語をオートエンコーダを用いて順次マスクし, 再構成し, (iii) オリジナルの部分と再構成された部分を各場所で比較し, 統語的正当性を決定する。
CelebAとAFHQのデータセットから,それぞれ92.10%,90.89%の分類精度を得た。
論文 参考訳(メタデータ) (2024-01-30T23:05:43Z) - Whole-body Detection, Recognition and Identification at Altitude and
Range [57.445372305202405]
多様なデータセットに基づいて評価したエンドツーエンドシステムを提案する。
我々のアプローチでは、一般的な画像データセットで検出器を事前トレーニングし、BRIARの複雑なビデオや画像でそれを微調整する。
屋内・屋外・航空シナリオにおける様々な範囲や角度の異なる条件下で徹底的な評価を行う。
論文 参考訳(メタデータ) (2023-11-09T20:20:23Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Accurate 3D Body Shape Regression using Metric and Semantic Attributes [55.58629009876271]
画像からの3次元身体形状の回帰は、人文計測や言語的形状特性から訓練できることを示す。
これは、画像から3次元の身体形状の回帰を、容易に測定できる人文計測と言語的形状特性から訓練できる最初の実演である。
論文 参考訳(メタデータ) (2022-06-14T17:54:49Z) - Single-view 3D Body and Cloth Reconstruction under Complex Poses [37.86174829271747]
既存の暗黙の関数ベースモデルを拡張して、任意のポーズと自己排他的な手足を持つ人間の画像を扱う。
入力画像を低精細度で3次元のボディ形状にマッピングする暗黙の関数を学習する。
次に、スムーズな表面を条件とした変位マップを学習し、衣服や身体の高周波の詳細を符号化する。
論文 参考訳(メタデータ) (2022-05-09T07:34:06Z) - 3D Convolution Neural Network based Person Identification using Gait
cycles [0.0]
この研究では、歩行の特徴を個人を特定するために使用される。このステップには、物体の検出、背景の抽出、シルエット抽出、骨格化、これらの歩行の特徴に関する3D畳み込みニューラルネットワークのトレーニングが含まれる。
提案法は, 膝と大腿の角度, 股関節角度, 接触角度などの特徴を抽出するために, 下肢に焦点をあてる。
論文 参考訳(メタデータ) (2021-06-06T14:27:06Z) - HumanGPS: Geodesic PreServing Feature for Dense Human Correspondences [60.89437526374286]
先行芸術はフレーム間の小さな動きを仮定するか、または大きな動きや視覚的に曖昧な身体部分を扱うことができないローカル記述子に依存します。
本稿では,各画素を特徴空間にマッピングし,特徴距離が画素間の測地距離を反映する深層学習フレームワークを提案する。
セマンティックアノテーションがなければ、提案する埋め込みは自動的に学習し、視覚的に類似した部分を区別し、異なる主題を統一された機能空間にまとめる。
論文 参考訳(メタデータ) (2021-03-29T12:43:44Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Improving Word Recognition using Multiple Hypotheses and Deep Embeddings [26.606946401967804]
単語画像埋め込みを用いた単語認識精度の向上のための新しい手法を提案する。
我々の融合方式は、訓練された単語画像埋め込みネットワークから得られた単語画像とテキスト埋め込みを利用して認識プロセスを改善する。
本手法は単語認識精度の点で約10%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2020-10-27T16:21:23Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。