Fugu-MT 論文翻訳(概要): One-Shot Real-to-Sim via End-to-End Differentiable Simulation and Rendering

論文の概要: One-Shot Real-to-Sim via End-to-End Differentiable Simulation and Rendering

arxiv url: http://arxiv.org/abs/2412.00259v2
Date: Sun, 08 Dec 2024 23:29:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 16:49:05.51605
Title: One-Shot Real-to-Sim via End-to-End Differentiable Simulation and Rendering
Title（参考訳）: エンド・ツー・エンド微分可能シミュレーションとレンダリングによるワンショットリアル・ツー・シム
Authors: Yifan Zhu, Tianyi Xiang, Aaron Dollar, Zherong Pan,
Abstract要約: 本稿では,特徴の同時識別を可能にする,新しい微分可能な点ベースオブジェクト表現を提案する。本手法では, グリッドベース外見場と組み合わせた, 新たな微分可能な点ベースオブジェクト表現を用いる。本研究では,ロボットのアクションシーケンスのみから,シミュレーションとレンダリング可能な世界モデルの両方を学習可能であることを示す。
参考スコア（独自算出の注目度）: 20.919046758279205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Identifying predictive world models for robots in novel environments from sparse online observations is essential for robot task planning and execution in novel environments. However, existing methods that leverage differentiable simulators to identify world models are incapable of jointly optimizing the shape, appearance, and physical properties of the scene. In this work, we introduce a novel object representation that allows the joint identification of these properties. Our method employs a novel differentiable point-based object representation coupled with a grid-based appearance field, which allows differentiable object collision detection and rendering. Combined with a differentiable physical simulator, we achieve end-to-end optimization of world models, given the sparse visual and tactile observations of a physical motion sequence. Through a series of system identification tasks in simulated and real environments, we show that our method can learn both simulation- and rendering-ready world models from only one robot action sequence.
Abstract（参考訳）: 新たな環境下でのロボットのタスク計画と実行には,遠隔観察から新しい環境におけるロボットの予測的世界モデルを特定することが不可欠である。しかし、世界モデルを特定するために微分可能シミュレータを利用する既存の方法は、シーンの形状、外観、物理的特性を共同で最適化することができない。本研究では,これらの特性を共同で識別できる新しいオブジェクト表現を提案する。本手法では,新たな微分可能な点ベースオブジェクト表現とグリッドベースの外観場を結合して,物体衝突の検出とレンダリングを可能にする。物理運動系列の疎視的・触覚的な観察から,世界モデルのエンド・ツー・エンドの最適化を実現する。シミュレーションおよび実環境における一連のシステム識別タスクを通して,本手法はシミュレーションとレンダリング可能な世界モデルの両方を,ロボットのアクションシーケンスのみから学習可能であることを示す。

関連論文リスト

Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Transformers and Slot Encoding for Sample Efficient Physical World Modelling [1.5498250598583487]
本研究では,世界モデリングのためのトランスフォーマーとスロットアテンションパラダイムを組み合わせたアーキテクチャを提案する。得られたニューラルアーキテクチャについて述べるとともに、既存のソリューションよりも、サンプル効率とトレーニング例よりも性能の変動を低減できることを示す実験結果を報告する。
論文参考訳（メタデータ） (2024-05-30T15:48:04Z)
DiffGen: Robot Demonstration Generation via Differentiable Physics Simulation, Differentiable Rendering, and Vision-Language Model [72.66465487508556]
DiffGenは、微分可能な物理シミュレーション、微分可能なレンダリング、ビジョン言語モデルを統合する新しいフレームワークである。言語命令の埋め込みとシミュレートされた観察の埋め込みとの距離を最小化することにより、現実的なロボットデモを生成することができる。実験によると、DiffGenを使えば、人間の努力やトレーニング時間を最小限に抑えて、ロボットデータを効率よく、効果的に生成できる。
論文参考訳（メタデータ） (2024-05-12T15:38:17Z)
Slot Structured World Models [0.0]
最先端のアプローチでは、フィードフォワードエンコーダを使用して、オブジェクトの埋め込みを抽出し、潜在グラフニューラルネットワークを使用して、オブジェクトの埋め込み間の相互作用をモデル化する。 Slot Structured World Models (SSWM)は、オブジェクト中心のエンコーダと潜在グラフベースの動的モデルを組み合わせた世界モデルのクラスである。
論文参考訳（メタデータ） (2024-01-08T21:19:30Z)
DiffuseBot: Breeding Soft Robots With Physics-Augmented Generative Diffusion Models [102.13968267347553]
本稿では,様々なタスクにおいて優れたソフトロボット形態を生成する物理拡張拡散モデルであるDiffuseBotを提案する。我々は、その能力とともに、シミュレーションされた、そして製造された様々なロボットを紹介します。
論文参考訳（メタデータ） (2023-11-28T18:58:48Z)
Reconstructing Objects in-the-wild for Realistic Sensor Simulation [41.55571880832957]
我々は,スパース・イン・ザ・ワイルドデータから正確な幾何学的および現実的な外観を推定する新しい手法であるNeuSimを提案する。物体の外観を物理にインスパイアされた頑健な反射率表現でモデル化し,実測データに有効である。実験の結果,NeuSimはスパース・トレーニング・ビューを持つ難解なシナリオに対して,強力なビュー合成性能を有することがわかった。
論文参考訳（メタデータ） (2023-11-09T18:58:22Z)
Learning visual-based deformable object rearrangement with local graph neural networks [4.333220038316982]
本稿では,変形可能なオブジェクト状態とキーポイントの集合とその相互作用を効率的にモデル化できる新しい表現戦略を提案する。また、変形可能な再配置ダイナミクスを共同でモデル化し、最適操作動作を推定するための光局所GNN学習を提案する。本手法は, 各種変形可能なアレンジメントタスク(平均96.3%)において, シミュレーション実験における最先端手法よりもはるかに高い成功率を達成する。
論文参考訳（メタデータ） (2023-10-16T11:42:54Z)
Physics-Based Rigid Body Object Tracking and Friction Filtering From RGB-D Videos [8.012771454339353]
本稿では,RGB-D画像から剛体物体を3次元追跡し,物体の物理的特性を推定する手法を提案する。実世界のデータセット上で、我々のアプローチを実証し、評価する。
論文参考訳（メタデータ） (2023-09-27T14:46:01Z)
Grasp Transfer based on Self-Aligning Implicit Representations of Local Surfaces [10.602143478315861]
本研究は,ロボットがこれまで遭遇した物体と形状の類似性を共有する新しい物体に,把握経験や実演を移す問題に対処する。我々は、オブジェクトメッシュの小さなデータセットから暗黙の局所的な表面表現モデルを学ぶために、単一の専門家のグリーグデモを使用します。推測時において、このモデルは、専門家の把握が示される表面と最も幾何学的に類似した表面を識別することにより、新しい物体に把握を伝達するために使用される。
論文参考訳（メタデータ） (2023-08-15T14:33:17Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Near-realtime Facial Animation by Deep 3D Simulation Super-Resolution [7.14576106770047]
本稿では,低コストでリアルタイムな物理シミュレーションによって生み出す顔のパフォーマンスを効率よく,現実的に向上させるニューラルネットワークに基づくシミュレーションフレームワークを提案する。顔のアニメーションをこのようなシミュレーション領域の例に用いて,2つのシミュレータで同じ筋の運動制御と骨格のポーズを単純にダイヤルすることで,この意味の一致を創り出すことができる。提案するニューラルネットワーク超解像フレームワークは,このトレーニングセットから未確認表現を一般化し,リアルタイム変種における解像度の制限やコスト削減近似による2つのシミュレーション間の不一致をモデル化するための補償を行うとともに,意味記述子やパラメータを必要としない。
論文参考訳（メタデータ） (2023-05-05T00:09:24Z)
GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文参考訳（メタデータ） (2023-03-24T03:32:02Z)
RISP: Rendering-Invariant State Predictor with Differentiable Simulation and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文参考訳（メタデータ） (2022-05-11T17:59:51Z)
Virtual Elastic Objects [18.228492027143307]
現実のオブジェクトのように振る舞う仮想オブジェクトを構築します。我々は、微分可能な粒子ベースシミュレータを用いて、変形場を用いて代表材料パラメータを探索する。各種力場下で12個のオブジェクトのデータセットを用いて実験を行い,コミュニティと共有する。
論文参考訳（メタデータ） (2022-01-12T18:59:03Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)
Towards Optimal Strategies for Training Self-Driving Perception Models in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文参考訳（メタデータ） (2021-11-15T18:37:43Z)
Attribute-Based Robotic Grasping with One-Grasp Adaptation [9.255994599301712]
本稿では,属性に基づくロボットグリップのエンドツーエンド学習手法を提案する。提案手法は,作業空間の画像とクエリテキストの埋め込みをゲートアテンション機構を用いて融合し,インスタンスの把握能力の予測を学習する。シミュレーションと実世界での実験結果は、私たちのアプローチが80%以上のインスタンスで未知のオブジェクトの成功率を把握できることを示しています。
論文参考訳（メタデータ） (2021-04-06T03:40:46Z)
GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition [81.24107630746508]
GeoSimは、新しい都市の運転シーンを合成するジオメトリ認識の画像合成プロセスです。まず、センサーデータからリアルな形状と外観の両方を備えた多様な3Dオブジェクトのバンクを構築します。得られた合成画像は、フォトリアリズム、トラフィック認識、幾何学的一貫性があり、画像シミュレーションが複雑なユースケースにスケールできる。
論文参考訳（メタデータ） (2021-01-16T23:00:33Z)
Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T23:59:09Z)
Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。 RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文参考訳（メタデータ） (2020-07-27T17:46:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。