論文の概要: Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose
- arxiv url: http://arxiv.org/abs/2509.16557v1
- Date: Sat, 20 Sep 2025 07:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.858509
- Title: Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose
- Title(参考訳): 3Dハンドポースを用いた人間と物体の人間中心のインタラクションからの人物識別
- Authors: Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram,
- Abstract要約: 本研究は、人間のオブジェクトインタラクション認識を通じて、邪魔にならないユーザ識別を目的としたフレームワークであるI2Sを紹介する。
I2Sは、3Dハンドポーズから抽出された手作り特徴と、各フォームの連続的特徴増強を利用する。
I2Sは、4MB未満の軽量モデルサイズと0.1秒の高速推論時間を維持しながら、最先端の性能を示す。
- 参考スコア(独自算出の注目度): 0.4779196219827507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-Object Interaction Recognition (HOIR) and user identification play a crucial role in advancing augmented reality (AR)-based personalized assistive technologies. These systems are increasingly being deployed in high-stakes, human-centric environments such as aircraft cockpits, aerospace maintenance, and surgical procedures. This research introduces I2S (Interact2Sign), a multi stage framework designed for unobtrusive user identification through human object interaction recognition, leveraging 3D hand pose analysis in egocentric videos. I2S utilizes handcrafted features extracted from 3D hand poses and per forms sequential feature augmentation: first identifying the object class, followed by HOI recognition, and ultimately, user identification. A comprehensive feature extraction and description process was carried out for 3D hand poses, organizing the extracted features into semantically meaningful categories: Spatial, Frequency, Kinematic, Orientation, and a novel descriptor introduced in this work, the Inter-Hand Spatial Envelope (IHSE). Extensive ablation studies were conducted to determine the most effective combination of features. The optimal configuration achieved an impressive average F1-score of 97.52% for user identification, evaluated on a bimanual object manipulation dataset derived from the ARCTIC and H2O datasets. I2S demonstrates state-of-the-art performance while maintaining a lightweight model size of under 4 MB and a fast inference time of 0.1 seconds. These characteristics make the proposed framework highly suitable for real-time, on-device authentication in security-critical, AR-based systems.
- Abstract(参考訳): 拡張現実(AR)に基づくパーソナライズされた支援技術の発展において,Human-Object Interaction Recognition(HOIR)とユーザ識別が重要な役割を担っている。
これらのシステムは、航空機のコックピット、航空宇宙整備、外科手術など、高度で人間中心の環境にますます展開されている。
In this study introduced I2S (Interact2Sign, a multi stage framework, designed for unobtrusive user identification through human object interaction recognition, using 3D hand pose analysis in egocentric video。
I2Sは、3Dハンドポーズから抽出された手作りの特徴と、各フォームの連続的な特徴拡張(最初はオブジェクトクラスを識別し、次にHOI認識を行い、最終的にはユーザ識別する)を利用する。
本研究で導入された空間的, 周波数, キネマティック, オリエンテーション, および新規な記述子であるIHSE(Inter-Hand Space Envelope)に分類し, 3次元手ポーズの包括的特徴抽出と記述処理を行った。
特徴の最も効果的な組み合わせを決定するために、広範囲にわたるアブレーション研究を行った。
この最適構成は、ARCTICデータセットとH2Oデータセットから得られた双方向オブジェクト操作データセットで評価された、ユーザ識別における平均97.52%の印象的なF1スコアを達成した。
I2Sは、4MB未満の軽量モデルサイズと0.1秒の高速推論時間を維持しながら、最先端の性能を示す。
これらの特徴により、セキュリティクリティカルなARベースのシステムにおいて、リアルタイム・オンデバイス認証に適したフレームワークが提案されている。
関連論文リスト
- InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation [54.09384502044162]
大規模な3D HOIベンチマークであるInterActを導入する。
まず、さまざまなソースから21.81時間のHOIデータを統合し、標準化し、詳細なテキストアノテーションで強化する。
第2に、アーティファクトの削減と手の動きの修正によりデータ品質を向上させる統一的な最適化フレームワークを提案する。
第3に,6つのベンチマークタスクを定義し,HOI生成モデリングの視点を統一し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-11T15:43:54Z) - Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - HOIMotion: Forecasting Human Motion During Human-Object Interactions Using Egocentric 3D Object Bounding Boxes [10.237077867790612]
本稿では,人間と物体の相互作用における人間の動き予測の新しい手法であるHOIMotionを提案する。
提案手法は,過去の身体のポーズやエゴセントリックな3Dオブジェクト境界ボックスに関する情報を統合する。
HOIMotionは、最先端の手法よりも大きなマージンで一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-07-02T19:58:35Z) - In My Perspective, In My Hands: Accurate Egocentric 2D Hand Pose and Action Recognition [1.4732811715354455]
アクション認識は、エゴセントリックなビデオ理解に不可欠であり、ユーザの努力なしに日々の生活活動(ADL)の自動的かつ継続的なモニタリングを可能にする。
既存の文献では、計算集約的な深度推定ネットワークを必要とする3Dハンドポーズ入力や、不快な深度センサーを装着することに焦点を当てている。
EffHandEgoNetとEffHandEgoNetの2つの新しい手法を導入する。
論文 参考訳(メタデータ) (2024-04-14T17:33:33Z) - HOISDF: Constraining 3D Hand-Object Pose Estimation with Global Signed
Distance Fields [96.04424738803667]
HOISDFは手動ポーズ推定ネットワークである。
手とオブジェクトのSDFを利用して、完全な再構築ボリュームに対してグローバルで暗黙的な表現を提供する。
そこで, HOISDFは手動ポーズ推定ベンチマークにおいて, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-02-26T22:48:37Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition [45.0131792009999]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、ほとんどの標準的な評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action
Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。
2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-20T05:52:54Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Selective Spatio-Temporal Aggregation Based Pose Refinement System:
Towards Understanding Human Activities in Real-World Videos [8.571131862820833]
最先端のポーズ推定装置は、現実世界の無注釈ビデオにおいて、乱れと低解像度のために高品質な2Dまたは3Dポーズデータを取得するのに苦労している。
本稿では,複数の専門家のポーズ推定器によって抽出されたキーポイント位置を洗練・平滑化するSST-Aという選択的時空間アグリゲーション機構を提案する。
本研究では, Pose-Refinement System (SSTA-PRS) によって改良された骨格データが,既存の行動認識モデルの強化に有効であることを示す。
論文 参考訳(メタデータ) (2020-11-10T19:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。