論文の概要: Egocentric Hand-object Interaction Detection and Application
- arxiv url: http://arxiv.org/abs/2109.14734v1
- Date: Wed, 29 Sep 2021 21:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:53:24.397927
- Title: Egocentric Hand-object Interaction Detection and Application
- Title(参考訳): エゴセントリックハンドオブジェクト干渉検出とその応用
- Authors: Yao Lu, Walterio W. Mayol-Cuevas
- Abstract要約: 本稿では,エゴセントリックな視点から手動物体の相互作用を検出する手法を提案する。
我々は、手ポーズ、手動マスク、手動物体マスクを予測するネットワークを訓練し、手動物体の相互作用状態を共同で予測する。
私たちのメソッドは、Shanの(textbf1simtextbf2$ FPS)よりもはるかに効率的な$textbf30$ FPSで実行できます。
- 参考スコア(独自算出の注目度): 24.68535915849555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present a method to detect the hand-object interaction from
an egocentric perspective. In contrast to massive data-driven discriminator
based method like \cite{Shan20}, we propose a novel workflow that utilises the
cues of hand and object. Specifically, we train networks predicting hand pose,
hand mask and in-hand object mask to jointly predict the hand-object
interaction status. We compare our method with the most recent work from Shan
et al. \cite{Shan20} on selected images from EPIC-KITCHENS
\cite{damen2018scaling} dataset and achieve $89\%$ accuracy on HOI (hand-object
interaction) detection which is comparative to Shan's ($92\%$). However, for
real-time performance, with the same machine, our method can run over
$\textbf{30}$ FPS which is much efficient than Shan's
($\textbf{1}\sim\textbf{2}$ FPS). Furthermore, with our approach, we are able
to segment script-less activities from where we extract the frames with the HOI
status detection. We achieve $\textbf{68.2\%}$ and $\textbf{82.8\%}$ F1 score
on GTEA \cite{fathi2011learning} and the UTGrasp \cite{cai2015scalable} dataset
respectively which are all comparative to the SOTA methods.
- Abstract(参考訳): 本稿では,自己中心的視点から物体間相互作用を検出する手法を提案する。
大量のデータ駆動判別器を用いた手法である \cite{shan20} とは対照的に,手とオブジェクトの手がかりを利用した新しいワークフローを提案する。
具体的には、ハンドポーズ、ハンドマスク、ハンドオブジェクトマスクを予測するネットワークをトレーニングし、ハンドオブジェクトのインタラクション状態を共同で予測する。
我々はこの手法をシャンらによる最新の研究と比較した。
EPIC-KITCHENS \cite{damen2018scaling} データセットから選択した画像上の \cite{Shan20} は、Shan の (92 %$) と比較した HOI (hand-object Interaction) 検出において、89 % の精度を達成する。
しかし、リアルタイムパフォーマンスの場合、同じマシンで、このメソッドは、shanの($\textbf{1}\sim\textbf{2}$ fps)よりもはるかに効率的な$\textbf{30}$ fpsで実行することができる。
さらに,このアプローチでは,hoiステータス検出を用いてフレームを抽出したスクリプトレスアクティビティをセグメント化することが可能である。
gtea \cite{fathi2011learning} と utgrasp \cite{cai2015scalable} のデータセット上で $\textbf{68.2\%}$ と $\textbf{82.8\%}$ f1 をそれぞれ達成し、soma 法と比較した。
関連論文リスト
- Robot Instance Segmentation with Few Annotations for Grasping [10.005879464111915]
セミスーパーバイザードラーニング(SSL)とラーニング・スルー・インタラクション(LTI)を組み合わせた新しいフレームワークを提案する。
提案手法は,自己スーパービジョンによる注釈付きデータを利用して,ラベルのない静止画像から生成された擬似シーケンスを用いて時間的コンテキストを組み込む。
本手法をARMBenchmix-object-toteとOCIDの2つのベンチマークで検証し,最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-01T13:58:32Z) - Vision Transformer with Sparse Scan Prior [57.37893387775829]
人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文 参考訳(メタデータ) (2024-05-22T04:34:36Z) - Exploring the Limits of Deep Image Clustering using Pretrained Models [1.1060425537315088]
本稿では,事前学習した特徴抽出器を利用してラベルなしで画像の分類を学習する手法を提案する。
本稿では,画像特徴間の関連性を学習する新たな目的について提案する。
論文 参考訳(メタデータ) (2023-03-31T08:56:29Z) - Egocentric Hand-object Interaction Detection [13.639883596251313]
マルチカメラシステムを用いて、複数の視点から手ポーズデータをキャプチャする。
我々のメソッドは、Shanよりもはるかに効率的な$textbf30$ FPSで実行できる。
論文 参考訳(メタデータ) (2022-11-16T17:31:40Z) - Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。
本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。
提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文 参考訳(メタデータ) (2022-11-16T10:01:33Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - Understanding Egocentric Hand-Object Interactions from Hand Pose
Estimation [24.68535915849555]
本稿では,エゴセントリックな画像を含むデータセットをペアワイズにラベル付けする手法を提案する。
また、収集したペアワイズデータを用いて、効率的なエンコーダ-デコーダスタイルのネットワークをトレーニングします。
論文 参考訳(メタデータ) (2021-09-29T18:34:06Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - SaccadeNet: A Fast and Accurate Object Detector [76.36741299193568]
我々はtextitSaccadeNet と呼ばれる高速かつ高精度なオブジェクト検出器を提案する。
セナム、コラム、atm、アガットの4つの主要なモジュールが含まれており、異なる情報的オブジェクトキーポイントへの参加を可能にする。
SaccadeNetは、25FPS以上の高速動作が可能なリアルタイムオブジェクト検出装置の中で、最高の検出性能を実現しています。
論文 参考訳(メタデータ) (2020-03-26T19:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。