論文の概要: Grasp-and-Lift: Executable 3D Hand-Object Interaction Reconstruction via Physics-in-the-Loop Optimization
- arxiv url: http://arxiv.org/abs/2601.18121v1
- Date: Mon, 26 Jan 2026 04:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.668079
- Title: Grasp-and-Lift: Executable 3D Hand-Object Interaction Reconstruction via Physics-in-the-Loop Optimization
- Title(参考訳): Grasp-and-Lift:物理-the-Loop最適化による3次元ハンドオブジェクトインタラクション再構成
- Authors: Byeonggyeol Choi, Woojin Oh, Jongwoo Lim,
- Abstract要約: デクサラスハンド操作は、正確にハンドオブジェクトの軌跡データを持つデータセットにますます依存している。
DexYCB や HO3D のような既存のリソースは主に視覚的アライメントに最適化されているが、物理シミュレーターでリプレイすると物理的に不可解な相互作用が生じることが多い。
本稿では,これらの視覚的に整列した軌道を物理的に有効な軌道に変換するシミュレーション・イン・ザ・ループ・リファインメント・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.146238489510258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dexterous hand manipulation increasingly relies on large-scale motion datasets with precise hand-object trajectory data. However, existing resources such as DexYCB and HO3D are primarily optimized for visual alignment but often yield physically implausible interactions when replayed in physics simulators, including penetration, missed contact, and unstable grasps. We propose a simulation-in-the-loop refinement framework that converts these visually aligned trajectories into physically executable ones. Our core contribution is to formulate this as a tractable black-box optimization problem. We parameterize the hand's motion using a low-dimensional, spline-based representation built on sparse temporal keyframes. This allows us to use a powerful gradient-free optimizer, CMA-ES, to treat the high-fidelity physics engine as a black-box objective function. Our method finds motions that simultaneously maximize physical success (e.g., stable grasp and lift) while minimizing deviation from the original human demonstration. Compared to MANIPTRANS-recent transfer pipelines, our approach achieves lower hand and object pose errors during replay and more accurately recovers hand-object physical interactions. Our approach provides a general and scalable method for converting visual demonstrations into physically valid trajectories, enabling the generation of high-fidelity data crucial for robust policy learning.
- Abstract(参考訳): デクサラスハンド操作は、より正確なハンドオブジェクトの軌跡データを持つ大規模モーションデータセットにますます依存している。
しかし、DexYCB や HO3D のような既存のリソースは、主に視覚的アライメントに最適化されているが、しばしば物理シミュレーターにおいて、浸透、接触の欠如、不安定な把握など、物理的に不確実な相互作用をもたらす。
本稿では,これらの視覚的に整列した軌道を物理的に実行可能な軌道に変換するシミュレーション・イン・ザ・ループ・リファインメント・フレームワークを提案する。
私たちのコアコントリビューションは、抽出可能なブラックボックス最適化問題としてこれを定式化することです。
スパースキーフレーム上に構築された低次元のスプラインベース表現を用いて手の動きをパラメータ化する。
これにより、高忠実度物理エンジンをブラックボックス目的関数として扱うために、強力な勾配のない最適化器であるCMA-ESを使用することができる。
そこで本手法では,人間の体力の低下を最小化しつつ,身体的成功を同時に最大化する動作(例えば,安定な握力と揚力)を探索する。
MANIPTRANS-Recent Transfer Pipelinesと比較して,リプレイ中の手・物体の動作誤差を低減し,手・物体の物理的相互作用をより正確に回復する。
当社のアプローチは,視覚的な実演を物理的に有効な軌跡に変換する汎用的かつスケーラブルな手法を提供し,ロバストな政策学習に不可欠な高忠実度データの生成を可能にする。
関連論文リスト
- PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis [37.21119648359889]
PhysGMはフィードフォワードフレームワークであり、単一の画像から3次元ガウス表現とその物理的特性を共同で予測する。
1分で1枚の画像から高忠実度4Dシミュレーションを効果的に生成する。
論文 参考訳(メタデータ) (2025-08-19T15:10:30Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - DeepSimHO: Stable Pose Estimation for Hand-Object Interaction via
Physics Simulation [81.11585774044848]
我々は、前方物理シミュレーションと後方勾配近似とニューラルネットワークを組み合わせた新しいディープラーニングパイプラインであるDeepSimHOを紹介する。
提案手法は, 評価の安定性を著しく向上し, テスト時間最適化よりも優れた効率性を実現する。
論文 参考訳(メタデータ) (2023-10-11T05:34:36Z) - DiffSkill: Skill Abstraction from Differentiable Physics for Deformable
Object Manipulations with Tools [96.38972082580294]
DiffSkillは、変形可能なオブジェクト操作タスクを解決するために、スキル抽象化に微分可能な物理シミュレータを使用する新しいフレームワークである。
特に、勾配に基づくシミュレーターから個々のツールを用いて、まず短距離のスキルを得る。
次に、RGBD画像を入力として取り込む実演軌跡から、ニューラルネットワークの抽象体を学習する。
論文 参考訳(メタデータ) (2022-03-31T17:59:38Z) - Physics-based Human Motion Estimation and Synthesis from Videos [0.0]
単眼のRGBビデオから直接、身体的に可視な人間の動きの生成モデルを訓練するための枠組みを提案する。
提案手法のコアとなるのは,不完全な画像に基づくポーズ推定を補正する新しい最適化式である。
その結果,我々の身体的補正動作は,ポーズ推定における先行作業よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。