論文の概要: CaSAR: Contact-aware Skeletal Action Recognition
- arxiv url: http://arxiv.org/abs/2309.10001v1
- Date: Sun, 17 Sep 2023 09:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 18:29:18.527815
- Title: CaSAR: Contact-aware Skeletal Action Recognition
- Title(参考訳): CaSAR: コンタクト対応骨格行動認識
- Authors: Junan Lin, Zhichao Sun, Enjie Cao, Taein Kwon, Mahdi Rad, Marc
Pollefeys
- Abstract要約: コンタクト対応骨格行動認識(CaSAR)と呼ばれる新しいフレームワークを提案する。
CaSARは空間情報を包含する手オブジェクト相互作用の新たな表現を使用する。
我々のフレームワークは、アクションシーケンスの各フレームのオブジェクトに触れたり、遠ざかったりする方法を学び、この情報を使ってアクションクラスを予測することができる。
- 参考スコア(独自算出の注目度): 47.249908147135855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeletal Action recognition from an egocentric view is important for
applications such as interfaces in AR/VR glasses and human-robot interaction,
where the device has limited resources. Most of the existing skeletal action
recognition approaches use 3D coordinates of hand joints and 8-corner
rectangular bounding boxes of objects as inputs, but they do not capture how
the hands and objects interact with each other within the spatial context. In
this paper, we present a new framework called Contact-aware Skeletal Action
Recognition (CaSAR). It uses novel representations of hand-object interaction
that encompass spatial information: 1) contact points where the hand joints
meet the objects, 2) distant points where the hand joints are far away from the
object and nearly not involved in the current action. Our framework is able to
learn how the hands touch or stay away from the objects for each frame of the
action sequence, and use this information to predict the action class. We
demonstrate that our approach achieves the state-of-the-art accuracy of 91.3%
and 98.4% on two public datasets, H2O and FPHA, respectively.
- Abstract(参考訳): エゴセントリックな視点からの骨格的行動認識は、AR/VRメガネのインターフェースや、限られたリソースを持つ人間とロボットのインタラクションのようなアプリケーションにとって重要である。
既存の骨格行動認識のアプローチのほとんどは、手関節の3d座標と8角形の物体境界箱を入力として使用するが、手と物体が空間的文脈の中でどのように相互作用するかを捉えていない。
本稿では,CaSAR(Contact-Aware Skeletal Action Recognition)と呼ばれる新しいフレームワークを提案する。
空間情報を包含する手・物間相互作用の新しい表現を用いる。
1)手関節が対象物と合致する接点
2)手関節が物体から遠く離れており,現在の動作にほとんど関与していない遠点。
我々のフレームワークは、アクションシーケンスの各フレームのオブジェクトに触れたり、遠ざかったりする方法を学び、この情報を使ってアクションクラスを予測することができる。
提案手法は,H2OとFPHAの2つの公開データセットに対して,それぞれ91.3%,98.4%の最先端精度を実現する。
関連論文リスト
- GEARS: Local Geometry-aware Hand-object Interaction Synthesis [38.75942505771009]
本研究では, 相互作用領域近傍の局所物体形状を推定するための, 結合中心型センサを提案する。
学習の複雑さを軽減するための重要なステップとして、グローバルフレームからテンプレートハンドフレームにポイントを変換し、共有モジュールを使用して各関節のセンサ特徴を処理する。
これに続いて、異なる次元の関節間の相関を捉えることを目的とした知覚時間変換ネットワークが提供される。
論文 参考訳(メタデータ) (2024-04-02T09:18:52Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - ARCTIC: A Dataset for Dexterous Bimanual Hand-Object Manipulation [68.80339307258835]
ARCTICは、オブジェクトを巧みに操作する両手のデータセットである。
正確な3Dハンドメッシュと、詳細でダイナミックな接触情報を組み合わせた2.1Mビデオフレームを含んでいる。
論文 参考訳(メタデータ) (2022-04-28T17:23:59Z) - Watch It Move: Unsupervised Discovery of 3D Joints for Re-Posing of
Articulated Objects [73.23249640099516]
複数視点からの移動を観察することで,これまで見えなかった物体の外観と構造の両方を学習する。
我々の洞察では、互いに相対的に動く隣り合う部分は関節で繋がらなければならない。
本手法は,四足歩行から単腕ロボット,人間に至るまで,さまざまな構造に対して有効であることを示す。
論文 参考訳(メタデータ) (2021-12-21T16:37:48Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - H2O: Two Hands Manipulating Objects for First Person Interaction
Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。
本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。
我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文 参考訳(メタデータ) (2021-04-22T17:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。