論文の概要: Controlling the World by Sleight of Hand
- arxiv url: http://arxiv.org/abs/2408.07147v1
- Date: Tue, 13 Aug 2024 18:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:55:43.272764
- Title: Controlling the World by Sleight of Hand
- Title(参考訳): スリート・オブ・ハンドによる世界制御
- Authors: Sruthi Sudhakar, Ruoshi Liu, Basile Van Hoorick, Carl Vondrick, Richard Zemel,
- Abstract要約: 我々は、物体と相互作用する人間の手のラベルなしビデオから学習することで、行動条件生成モデルを学ぶ。
画像と、所望のハンドインタラクションの形状/位置が与えられた場合、CosHandは、インタラクションが発生した後の未来のイメージを合成する。
実験により、結果のモデルが手動物体の相互作用の効果をよく予測できることが示されている。
- 参考スコア(独自算出の注目度): 26.874176292105556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans naturally build mental models of object interactions and dynamics, allowing them to imagine how their surroundings will change if they take a certain action. While generative models today have shown impressive results on generating/editing images unconditionally or conditioned on text, current methods do not provide the ability to perform object manipulation conditioned on actions, an important tool for world modeling and action planning. Therefore, we propose to learn an action-conditional generative models by learning from unlabeled videos of human hands interacting with objects. The vast quantity of such data on the internet allows for efficient scaling which can enable high-performing action-conditional models. Given an image, and the shape/location of a desired hand interaction, CosHand, synthesizes an image of a future after the interaction has occurred. Experiments show that the resulting model can predict the effects of hand-object interactions well, with strong generalization particularly to translation, stretching, and squeezing interactions of unseen objects in unseen environments. Further, CosHand can be sampled many times to predict multiple possible effects, modeling the uncertainty of forces in the interaction/environment. Finally, method generalizes to different embodiments, including non-human hands, i.e. robot hands, suggesting that generative video models can be powerful models for robotics.
- Abstract(参考訳): 人間は自然に物体の相互作用とダイナミクスのメンタルモデルを構築し、特定のアクションをとれば周囲がどのように変化するかを想像することができる。
現在の生成モデルは、無条件で、あるいはテキストで、画像を生成し、編集する際の印象的な結果を示しているが、現在の手法では、アクションに条件付けされたオブジェクト操作を行う能力は提供されていない。
そこで本研究では,物体と対話する人間の手のラベルなしビデオから,行動条件生成モデルを学ぶことを提案する。
インターネット上の膨大な量のデータが効率的なスケーリングを可能にし、高いパフォーマンスのアクション条件モデルを可能にする。
画像と、所望のハンドインタラクションの形状/位置が与えられた場合、CosHandは、インタラクションが発生した後の未来のイメージを合成する。
実験により、結果のモデルは、特に、目に見えない環境下での物体の翻訳、伸縮、および浮動小数点相互作用に対する強い一般化により、手-物体相互作用の効果をうまく予測できることが示された。
さらに、CosHandは、相互作用/環境における力の不確実性をモデル化して、複数の可能な効果を予測するために、何度もサンプリングすることができる。
最後に、ロボットハンドのような非人間の手を含む様々な実施形態に一般化し、生成ビデオモデルがロボット工学の強力なモデルになり得ることを示唆する。
関連論文リスト
- Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - ManiFoundation Model for General-Purpose Robotic Manipulation of Contact Synthesis with Arbitrary Objects and Robots [24.035706461949715]
汎用ロボットが幅広い操作タスクをこなせるようなモデルを開発する必要がある。
本研究は,汎用ロボット操作の基礎モデルを構築するための包括的枠組みを導入する。
私たちのモデルは、平均的な成功率を約90%達成します。
論文 参考訳(メタデータ) (2024-05-11T09:18:37Z) - Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。
条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。
我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文 参考訳(メタデータ) (2023-09-28T08:22:00Z) - DexDeform: Dexterous Deformable Object Manipulation with Human
Demonstrations and Differentiable Physics [97.75188532559952]
人間の実演から巧妙な操作スキルを抽象化する原理的枠組みを提案する。
次に、イマジネーションにおけるアクション抽象化を計画する上で、デモを使ってスキルモデルをトレーニングします。
提案手法の有効性を評価するために,6つの難解な変形可能なオブジェクト操作タスクの組を導入する。
論文 参考訳(メタデータ) (2023-03-27T17:59:49Z) - Synthesis and Execution of Communicative Robotic Movements with
Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。
我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。
我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文 参考訳(メタデータ) (2022-03-29T15:03:05Z) - Factored World Models for Zero-Shot Generalization in Robotic
Manipulation [7.258229016768018]
我々は、オブジェクト指向世界モデルを用いてロボットピック・アンド・プレイス・タスクを一般化することを学ぶ。
グラフニューラルネットワークの残差スタックを使用して、ノードとエッジの両方のニューラルネットワークにおいて、複数のレベルのアクション情報を受信する。
モデルアンサンブルを用いて、最大12個のピック・アンド・プレイス・アクションを含むタスクを検索で計画できることが示される。
論文 参考訳(メタデータ) (2022-02-10T21:26:11Z) - V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated
Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。
本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文 参考訳(メタデータ) (2021-11-07T02:31:09Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。