論文の概要: Learning Continuous Grasping Function with a Dexterous Hand from Human
Demonstrations
- arxiv url: http://arxiv.org/abs/2207.05053v2
- Date: Tue, 12 Jul 2022 07:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 11:07:07.732255
- Title: Learning Continuous Grasping Function with a Dexterous Hand from Human
Demonstrations
- Title(参考訳): 擬似的手による連続的グラスピング関数の学習
- Authors: Jianglong Ye, Jiashun Wang, Binghao Huang, Yuzhe Qin, Xiaolong Wang
- Abstract要約: 提案したモデルであるContinuous Grasping Function (CGF) を命名する。
CGFは3次元人間の実演を用いた変分オートエンコーダによる生成的モデリングによって学習される。
従来の計画アルゴリズムと比較して、CGFはより効率的であり、実のアレグロハンドでグリーピングする際の成功率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 7.733935820533302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to learn to generate grasping motion for manipulation with a
dexterous hand using implicit functions. With continuous time inputs, the model
can generate a continuous and smooth grasping plan. We name the proposed model
Continuous Grasping Function (CGF). CGF is learned via generative modeling with
a Conditional Variational Autoencoder using 3D human demonstrations. We will
first convert the large-scale human-object interaction trajectories to robot
demonstrations via motion retargeting, and then use these demonstrations to
train CGF. During inference, we perform sampling with CGF to generate different
grasping plans in the simulator and select the successful ones to transfer to
the real robot. By training on diverse human data, our CGF allows
generalization to manipulate multiple objects. Compared to previous planning
algorithms, CGF is more efficient and achieves significant improvement on
success rate when transferred to grasping with the real Allegro Hand. Our
project page is at https://jianglongye.com/cgf .
- Abstract(参考訳): そこで本研究では,暗黙関数を用いたデクスタラスハンド操作のための把持動作生成法を提案する。
連続的な時間入力により、モデルは連続的で滑らかな把握計画を生成することができる。
提案したモデルであるContinuous Grasping Function (CGF) を命名する。
CGFは3次元人間の実演を用いて条件付き変分オートエンコーダを用いて生成モデルを用いて学習する。
まず、大規模な人間と物体の相互作用軌道を、モーションリターゲティングによってロボットのデモに変換し、次にこれらのデモを使ってCGFを訓練する。
推定中, cgfを用いたサンプリングを行い, シミュレータ内で異なる把持計画を生成し, 実ロボットへの移動に成功するものを選択する。
多様な人間のデータをトレーニングすることで、cgfは一般化によって複数のオブジェクトを操作できる。
従来の計画アルゴリズムと比較して、CGFはより効率的であり、実のアレグロハンドでグリーピングする際の成功率を大幅に向上させる。
私たちのプロジェクトページはhttps://jianglongye.com/cgf です。
関連論文リスト
- Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。
人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。
我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-09-12T17:59:07Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。
言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。
実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文 参考訳(メタデータ) (2024-05-12T15:38:17Z) - Hierarchical Generation of Human-Object Interactions with Diffusion
Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。
私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。
NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文 参考訳(メタデータ) (2023-10-03T17:50:23Z) - DMFC-GraspNet: Differentiable Multi-Fingered Robotic Grasp Generation in
Cluttered Scenes [22.835683657191936]
マルチフィンガーロボットグリップは、複雑なオブジェクト操作を行う可能性がある。
マルチフィンガーロボットグリップの現在の技術は、推論時間毎に1つのグリップしか予測しないことが多い。
本稿では,この課題に対処するための3つの主要なコントリビューションを持つ,微分可能なマルチフィンガーグリップ生成ネットワーク(DMFC-GraspNet)を提案する。
論文 参考訳(メタデータ) (2023-08-01T11:21:07Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。