論文の概要: One-Shot Real-to-Sim via End-to-End Differentiable Simulation and Rendering
- arxiv url: http://arxiv.org/abs/2412.00259v2
- Date: Sun, 08 Dec 2024 23:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:47:34.258547
- Title: One-Shot Real-to-Sim via End-to-End Differentiable Simulation and Rendering
- Title(参考訳): エンド・ツー・エンド微分可能シミュレーションとレンダリングによるワンショットリアル・ツー・シム
- Authors: Yifan Zhu, Tianyi Xiang, Aaron Dollar, Zherong Pan,
- Abstract要約: 本稿では,特徴の同時識別を可能にする,新しい微分可能な点ベースオブジェクト表現を提案する。
本手法では, グリッドベース外見場と組み合わせた, 新たな微分可能な点ベースオブジェクト表現を用いる。
本研究では,ロボットのアクションシーケンスのみから,シミュレーションとレンダリング可能な世界モデルの両方を学習可能であることを示す。
- 参考スコア(独自算出の注目度): 20.919046758279205
- License:
- Abstract: Identifying predictive world models for robots in novel environments from sparse online observations is essential for robot task planning and execution in novel environments. However, existing methods that leverage differentiable simulators to identify world models are incapable of jointly optimizing the shape, appearance, and physical properties of the scene. In this work, we introduce a novel object representation that allows the joint identification of these properties. Our method employs a novel differentiable point-based object representation coupled with a grid-based appearance field, which allows differentiable object collision detection and rendering. Combined with a differentiable physical simulator, we achieve end-to-end optimization of world models, given the sparse visual and tactile observations of a physical motion sequence. Through a series of system identification tasks in simulated and real environments, we show that our method can learn both simulation- and rendering-ready world models from only one robot action sequence.
- Abstract(参考訳): 新たな環境下でのロボットのタスク計画と実行には,遠隔観察から新しい環境におけるロボットの予測的世界モデルを特定することが不可欠である。
しかし、世界モデルを特定するために微分可能シミュレータを利用する既存の方法は、シーンの形状、外観、物理的特性を共同で最適化することができない。
本研究では,これらの特性を共同で識別できる新しいオブジェクト表現を提案する。
本手法では,新たな微分可能な点ベースオブジェクト表現とグリッドベースの外観場を結合して,物体衝突の検出とレンダリングを可能にする。
物理運動系列の疎視的・触覚的な観察から,世界モデルのエンド・ツー・エンドの最適化を実現する。
シミュレーションおよび実環境における一連のシステム識別タスクを通して,本手法はシミュレーションとレンダリング可能な世界モデルの両方を,ロボットのアクションシーケンスのみから学習可能であることを示す。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。
言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。
実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文 参考訳(メタデータ) (2024-05-12T15:38:17Z) - Reconstructing Objects in-the-wild for Realistic Sensor Simulation [41.55571880832957]
我々は,スパース・イン・ザ・ワイルドデータから正確な幾何学的および現実的な外観を推定する新しい手法であるNeuSimを提案する。
物体の外観を物理にインスパイアされた頑健な反射率表現でモデル化し,実測データに有効である。
実験の結果,NeuSimはスパース・トレーニング・ビューを持つ難解なシナリオに対して,強力なビュー合成性能を有することがわかった。
論文 参考訳(メタデータ) (2023-11-09T18:58:22Z) - Physics-Based Rigid Body Object Tracking and Friction Filtering From RGB-D Videos [8.012771454339353]
本稿では,RGB-D画像から剛体物体を3次元追跡し,物体の物理的特性を推定する手法を提案する。
実世界のデータセット上で、我々のアプローチを実証し、評価する。
論文 参考訳(メタデータ) (2023-09-27T14:46:01Z) - Grasp Transfer based on Self-Aligning Implicit Representations of Local
Surfaces [10.602143478315861]
本研究は,ロボットがこれまで遭遇した物体と形状の類似性を共有する新しい物体に,把握経験や実演を移す問題に対処する。
我々は、オブジェクトメッシュの小さなデータセットから暗黙の局所的な表面表現モデルを学ぶために、単一の専門家のグリーグデモを使用します。
推測時において、このモデルは、専門家の把握が示される表面と最も幾何学的に類似した表面を識別することにより、新しい物体に把握を伝達するために使用される。
論文 参考訳(メタデータ) (2023-08-15T14:33:17Z) - Near-realtime Facial Animation by Deep 3D Simulation Super-Resolution [7.14576106770047]
本稿では,低コストでリアルタイムな物理シミュレーションによって生み出す顔のパフォーマンスを効率よく,現実的に向上させるニューラルネットワークに基づくシミュレーションフレームワークを提案する。
顔のアニメーションをこのようなシミュレーション領域の例に用いて,2つのシミュレータで同じ筋の運動制御と骨格のポーズを単純にダイヤルすることで,この意味の一致を創り出すことができる。
提案するニューラルネットワーク超解像フレームワークは,このトレーニングセットから未確認表現を一般化し,リアルタイム変種における解像度の制限やコスト削減近似による2つのシミュレーション間の不一致をモデル化するための補償を行うとともに,意味記述子やパラメータを必要としない。
論文 参考訳(メタデータ) (2023-05-05T00:09:24Z) - RISP: Rendering-Invariant State Predictor with Differentiable Simulation
and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。
本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。
提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文 参考訳(メタデータ) (2022-05-11T17:59:51Z) - Virtual Elastic Objects [18.228492027143307]
現実のオブジェクトのように振る舞う仮想オブジェクトを構築します。
我々は、微分可能な粒子ベースシミュレータを用いて、変形場を用いて代表材料パラメータを探索する。
各種力場下で12個のオブジェクトのデータセットを用いて実験を行い,コミュニティと共有する。
論文 参考訳(メタデータ) (2022-01-12T18:59:03Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition [81.24107630746508]
GeoSimは、新しい都市の運転シーンを合成するジオメトリ認識の画像合成プロセスです。
まず、センサーデータからリアルな形状と外観の両方を備えた多様な3Dオブジェクトのバンクを構築します。
得られた合成画像は、フォトリアリズム、トラフィック認識、幾何学的一貫性があり、画像シミュレーションが複雑なユースケースにスケールできる。
論文 参考訳(メタデータ) (2021-01-16T23:00:33Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。