論文の概要: Get a Grip: Reconstructing Hand-Object Stable Grasps in Egocentric
Videos
- arxiv url: http://arxiv.org/abs/2312.15719v1
- Date: Mon, 25 Dec 2023 13:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:40:18.288442
- Title: Get a Grip: Reconstructing Hand-Object Stable Grasps in Egocentric
Videos
- Title(参考訳): Egocentricビデオで手動の安定グラフを再構築するGet a Grip
- Authors: Zhifan Zhu, Dima Damen
- Abstract要約: 我々は、自我中心の動画において、既知の対象カテゴリーに対する手動物体再構成に対処する。
本研究は,物体を安定に保持するフレームを共同で再構築する,手動安定グラフ再構成(HO-SGR)の課題を提案する。
- 参考スコア(独自算出の注目度): 27.243429356038682
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We address in-the-wild hand-object reconstruction for a known object category
in egocentric videos, focusing on temporal periods of stable grasps. We propose
the task of Hand-Object Stable Grasp Reconstruction (HO-SGR), the joint
reconstruction of frames during which the hand is stably holding the object. We
thus can constrain the object motion relative to the hand, effectively
regularising the reconstruction and improving performance. By analysing the 3D
ARCTIC dataset, we identify temporal periods where the contact area between the
hand and object vertices remain stable. We showcase that objects within stable
grasps move within a single degree of freedom (1~DoF). We thus propose a method
for jointly optimising all frames within a stable grasp by minimising the
object's rotation to that within a latent 1 DoF. We then extend this knowledge
to in-the-wild egocentric videos by labelling 2.4K clips of stable grasps from
the EPIC-KITCHENS dataset. Our proposed EPIC-Grasps dataset includes 390 object
instances of 9 categories, featuring stable grasps from videos of daily
interactions in 141 environments. Our method achieves significantly better
HO-SGR, both qualitatively and by computing the stable grasp area and 2D
projection labels of mask overlaps.
- Abstract(参考訳): エゴセントリックビデオにおける既知の対象カテゴリに対する手対象内再構成に対処し,安定な把握の時間的期間に着目した。
本研究は,物体を安定に保持するフレームを共同で再構築する,手動安定グラフ再構成(HO-SGR)の課題を提案する。
これにより、手に対する物体の動きを拘束し、効果的に再構成し、性能を向上させることができる。
3次元ARCTICデータセットを解析することにより、手と物体の頂点間の接触領域が安定している時間周期を同定する。
安定な把持内の物体は、単一の自由度(1〜dof)内を移動する。
そこで本研究では, 物体の回転を潜在1 dof内で最小化することにより, 安定な把持内で全フレームを協調的に最適化する方法を提案する。
次に、EPIC-KITCHENSデータセットから2.4Kクリップの安定したグリップをラベル付けすることで、この知識をWild Egocentric Videoに拡張する。
提案するepic-graspsデータセットには9つのカテゴリからなる390のオブジェクトインスタンスが含まれている。
本手法は,安定な把握領域とマスク重なりの2次元投影ラベルを定性的に計算し,より優れたHO-SGRを実現する。
関連論文リスト
- Towards Stable 3D Object Detection [64.49059005467817]
安定度指数(SI)は3次元検出器の安定性を信頼度、ボックスの定位、範囲、方向で総合的に評価できる新しい指標である。
モデルの安定性向上を支援するため,予測一貫性学習(PCL)と呼ばれる,汎用的で効果的なトレーニング戦略を導入する。
PCLは本質的に、異なるタイムスタンプと拡張の下で同じオブジェクトの予測一貫性を促進し、検出安定性を向上させる。
論文 参考訳(メタデータ) (2024-07-05T07:17:58Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Tracking and Reconstructing Hand Object Interactions from Point Cloud
Sequences in the Wild [35.55753131098285]
本稿では,手関節運動を推定するために,点クラウドを用いた手関節追跡ネットワークであるHandTrackNetを提案する。
このパイプラインは,予測ハンドジョイントをテンプレートベースパラメトリックハンドモデルMANOに変換することで,全ハンドを再構築する。
オブジェクトトラッキングでは,オブジェクトSDFを第1フレームから推定し,最適化に基づくトラッキングを行う,シンプルで効果的なモジュールを考案する。
論文 参考訳(メタデータ) (2022-09-24T13:40:09Z) - PoseIt: A Visual-Tactile Dataset of Holding Poses for Grasp Stability
Analysis [7.644487678804541]
対象物を把握する全サイクルから収集した視覚的・触覚的データを含む,新しいデータセットPoseItを提案する。
PoseItのデータを用いて、特定の保持されたポーズにおいて、把握されたオブジェクトが安定しているかどうかを予測するタスクを定式化し、対処することができる。
実験の結果,PoseItでトレーニングしたマルチモーダルモデルは,視覚や触覚のみを用いた場合よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-09-12T04:49:41Z) - 3D Multi-Object Tracking with Differentiable Pose Estimation [0.0]
室内環境におけるRGB-Dシーケンスからの3次元多対象追跡と再構成のための新しい手法を提案する。
我々は、これらの対応を利用してグラフニューラルネットワークに通知し、すべてのオブジェクトの最適かつ時間的に一貫性のある7-DoFポーズトラジェクトリを解決する。
本手法は,既存の最先端手法に比べて,すべてのテストシーケンスに対して蓄積したMOTAスコアを24.8%向上させる。
論文 参考訳(メタデータ) (2022-06-28T06:46:32Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。