Fugu-MT 論文翻訳(概要): Recognizing People by Body Shape Using Deep Networks of Images and Words

論文の概要: Recognizing People by Body Shape Using Deep Networks of Images and Words

arxiv url: http://arxiv.org/abs/2305.19160v1
Date: Tue, 30 May 2023 16:03:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 15:15:04.233937
Title: Recognizing People by Body Shape Using Deep Networks of Images and Words
Title（参考訳）: 画像と単語の深部ネットワークを用いた人体形状の認識
Authors: Blake A. Myers, Lucas Jaggernauth, Thomas M. Metz, Matthew Q. Hill, Veda Nandan Gandi, Carlos D. Castillo, Alice J. O'Toole
Abstract要約: 距離や視点の変化による生体形状を生体計測として検討する。本稿では,標準対象分類網と言語記述に基づく表現を組み合わせたアプローチを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Common and important applications of person identification occur at distances and viewpoints in which the face is not visible or is not sufficiently resolved to be useful. We examine body shape as a biometric across distance and viewpoint variation. We propose an approach that combines standard object classification networks with representations based on linguistic (word-based) descriptions of bodies. Algorithms with and without linguistic training were compared on their ability to identify people from body shape in images captured across a large range of distances/views (close-range, 100m, 200m, 270m, 300m, 370m, 400m, 490m, 500m, 600m, and at elevated pitch in images taken by an unmanned aerial vehicle [UAV]). Accuracy, as measured by identity-match ranking and false accept errors in an open-set test, was surprisingly good. For identity-ranking, linguistic models were more accurate for close-range images, whereas non-linguistic models fared better at intermediary distances. Fusion of the linguistic and non-linguistic embeddings improved performance at all, but the farthest distance. Although the non-linguistic model yielded fewer false accepts at all distances, fusion of the linguistic and non-linguistic models decreased false accepts for all, but the UAV images. We conclude that linguistic and non-linguistic representations of body shape can offer complementary identity information for bodies that can improve identification in applications of interest.
Abstract（参考訳）: 人物識別の一般的かつ重要な応用は、顔が見えない、あるいは十分に解決されていないような距離や視点で発生する。身体形状を距離と視点の変化のバイオメトリックとして検討する。本稿では,標準対象分類ネットワークと,身体の言語的(単語ベース)記述に基づく表現を組み合わせる手法を提案する。言語訓練をともなうアルゴリズムは,多岐にわたる距離/視点で撮影された画像(近距離,100m,200m,270m,300m,370m,400m,490m,500m,600m,無人航空機(uav)で撮影された画像の体型から人物を識別する能力について比較した。オープンセットテストにおいて、IDマッチランキングと偽受け入れエラーによって測定された精度は驚くほど良好だった。アイデンティティレベルの言語モデルは、近距離画像ではより正確であるが、非言語モデルは中間距離ではより正確であった。言語的および非言語的埋め込みの融合は、パフォーマンスを全く改善したが、最も遠かった。非言語モデルはあらゆる距離において偽の受け入れを減らしたが、言語モデルと非言語モデルの融合は、すべてにおいて偽の受け入れを減らした。我々は、身体形状の言語的および非言語的表現は、興味のある応用における識別を改善する身体の相補的アイデンティティ情報を提供することができると結論づける。

関連論文リスト

Predicting Camera Pose from Perspective Descriptions for Spatial Reasoning [47.32183356464973]
本稿では、カメラポーズを、クロスビュー融合とノベルビュー推論のための明示的な幾何学的アンカーとして利用する、ポーズ対応マルチイメージフレームワークCAMCUEを紹介する。 CAMCUEは、ビュー毎のポーズを視覚トークンに注入し、ターゲットカメラのポーズに自然言語の視点記述を基盤とし、応答をサポートするためにポーズ条件の想定されたターゲットビューを合成する。 CAMCUEは、全体的な精度を9.06%向上させ、目標ポーズを自然言語の視点記述から予測する。
論文参考訳（メタデータ） (2026-02-05T18:59:55Z)
Dissecting Human Body Representations in Deep Networks Trained for Person Identification [0.0]
我々は、4,788のアイデンティティと9つのデータベースにわたる190万の画像でトレーニングされた4つのボディ識別ネットワークから、ボディイメージの埋め込みを分析する。顔は身体識別アルゴリズムの精度に寄与し、これらのアルゴリズムは顔の特定をある程度行うことができる。我々は,学習した埋め込み空間上で直接的かつ選択的に操作することで,追加の訓練を伴わずに識別精度を向上できることを実証した。
論文参考訳（メタデータ） (2025-02-21T21:03:05Z)
Unconstrained Body Recognition at Altitude and Range: Comparing Four Approaches [0.0]
我々は、時間とともに安定している永続的な身体形状の特徴を学習することに集中する。視覚変換器(ViT)とSwin-ViTモデルに基づく身体識別モデルを提案する。すべてのモデルは、9つのデータベースにまたがる約5Kアイデンティティの190万以上の画像の大規模で多様なデータセットでトレーニングされている。
論文参考訳（メタデータ） (2025-02-10T23:49:06Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
Robust Pronoun Fidelity with English LLMs: Are they Reasoning, Repeating, or Just Biased? [26.583741801345507]
英語における代名詞の忠実度を測定するために,500万件以上のデータセットを提示する。その結果, 代名詞の忠実度は, 人間が100%近い精度を達成できるような, 単純で自然主義的な環境では, 頑健ではないことがわかった。
論文参考訳（メタデータ） (2024-04-04T01:07:14Z)
The Shape of Word Embeddings: Quantifying Non-Isometry With Topological Data Analysis [10.242373477945376]
我々は、トポロジカルデータ解析から永続的ホモロジーを用いて、ラベルなし埋め込みの形状から言語ペア間の距離を測定する。これらの違いが無作為な訓練誤りなのか、それとも言語に関する実情報なのかを識別するために、計算された距離行列を用いて81のインド・ヨーロッパ語に言語系統木を構築する。
論文参考訳（メタデータ） (2024-03-30T23:51:25Z)
Whole-body Detection, Recognition and Identification at Altitude and Range [57.445372305202405]
多様なデータセットに基づいて評価したエンドツーエンドシステムを提案する。我々のアプローチでは、一般的な画像データセットで検出器を事前トレーニングし、BRIARの複雑なビデオや画像でそれを微調整する。屋内・屋外・航空シナリオにおける様々な範囲や角度の異なる条件下で徹底的な評価を行う。
論文参考訳（メタデータ） (2023-11-09T20:20:23Z)
Accurate 3D Body Shape Regression using Metric and Semantic Attributes [55.58629009876271]
画像からの3次元身体形状の回帰は、人文計測や言語的形状特性から訓練できることを示す。これは、画像から3次元の身体形状の回帰を、容易に測定できる人文計測と言語的形状特性から訓練できる最初の実演である。
論文参考訳（メタデータ） (2022-06-14T17:54:49Z)
Single-view 3D Body and Cloth Reconstruction under Complex Poses [37.86174829271747]
既存の暗黙の関数ベースモデルを拡張して、任意のポーズと自己排他的な手足を持つ人間の画像を扱う。入力画像を低精細度で3次元のボディ形状にマッピングする暗黙の関数を学習する。次に、スムーズな表面を条件とした変位マップを学習し、衣服や身体の高周波の詳細を符号化する。
論文参考訳（メタデータ） (2022-05-09T07:34:06Z)
3D Convolution Neural Network based Person Identification using Gait cycles [0.0]
この研究では、歩行の特徴を個人を特定するために使用される。このステップには、物体の検出、背景の抽出、シルエット抽出、骨格化、これらの歩行の特徴に関する3D畳み込みニューラルネットワークのトレーニングが含まれる。提案法は, 膝と大腿の角度, 股関節角度, 接触角度などの特徴を抽出するために, 下肢に焦点をあてる。
論文参考訳（メタデータ） (2021-06-06T14:27:06Z)
HumanGPS: Geodesic PreServing Feature for Dense Human Correspondences [60.89437526374286]
先行芸術はフレーム間の小さな動きを仮定するか、または大きな動きや視覚的に曖昧な身体部分を扱うことができないローカル記述子に依存します。本稿では,各画素を特徴空間にマッピングし,特徴距離が画素間の測地距離を反映する深層学習フレームワークを提案する。セマンティックアノテーションがなければ、提案する埋め込みは自動的に学習し、視覚的に類似した部分を区別し、異なる主題を統一された機能空間にまとめる。
論文参考訳（メタデータ） (2021-03-29T12:43:44Z)
Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文参考訳（メタデータ） (2021-03-11T06:47:45Z)
Improving Word Recognition using Multiple Hypotheses and Deep Embeddings [26.606946401967804]
単語画像埋め込みを用いた単語認識精度の向上のための新しい手法を提案する。我々の融合方式は、訓練された単語画像埋め込みネットワークから得られた単語画像とテキスト埋め込みを利用して認識プロセスを改善する。本手法は単語認識精度の点で約10%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2020-10-27T16:21:23Z)
Mechanisms for Handling Nested Dependencies in Neural-Network Language Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文参考訳（メタデータ） (2020-06-19T12:00:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。