Fugu-MT 論文翻訳(概要): URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images

論文の概要: URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images

arxiv url: http://arxiv.org/abs/2405.11656v2
Date: Wed, 29 May 2024 23:01:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 20:15:18.449243
Title: URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images
Title（参考訳）: URDFormer: 実世界の画像から人工シミュレーション環境を構築するパイプライン
Authors: Zoey Chen, Aaron Walsman, Marius Memmel, Kaichun Mo, Alex Fang, Karthikeya Vemuri, Alan Wu, Dieter Fox, Abhishek Gupta,
Abstract要約: そこで本研究では,実世界の画像からキネマティック構造と動的構造を合成したシミュレーションシーンを生成するエンドツーエンドパイプラインを提案する。そこで本研究は,大規模シミュレーション環境のためのパイプラインと,ロバストなロボット制御ポリシをトレーニングするための統合システムの両方を提供する。
参考スコア（独自算出の注目度）: 39.0780707100513
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Constructing simulation scenes that are both visually and physically realistic is a problem of practical interest in domains ranging from robotics to computer vision. This problem has become even more relevant as researchers wielding large data-hungry learning methods seek new sources of training data for physical decision-making systems. However, building simulation models is often still done by hand. A graphic designer and a simulation engineer work with predefined assets to construct rich scenes with realistic dynamic and kinematic properties. While this may scale to small numbers of scenes, to achieve the generalization properties that are required for data-driven robotic control, we require a pipeline that is able to synthesize large numbers of realistic scenes, complete with 'natural' kinematic and dynamic structures. To attack this problem, we develop models for inferring structure and generating simulation scenes from natural images, allowing for scalable scene generation from web-scale datasets. To train these image-to-simulation models, we show how controllable text-to-image generative models can be used in generating paired training data that allows for modeling of the inverse problem, mapping from realistic images back to complete scene models. We show how this paradigm allows us to build large datasets of scenes in simulation with semantic and physical realism. We present an integrated end-to-end pipeline that generates simulation scenes complete with articulated kinematic and dynamic structures from real-world images and use these for training robotic control policies. We then robustly deploy in the real world for tasks like articulated object manipulation. In doing so, our work provides both a pipeline for large-scale generation of simulation environments and an integrated system for training robust robotic control policies in the resulting environments.
Abstract（参考訳）: 視覚的にも身体的にも現実的にもシミュレーションシーンを構築することは、ロボット工学からコンピュータビジョンまで、領域における実践的な関心の問題である。この問題は、大規模なデータハングリー学習手法が物理的な意思決定システムのための新たなトレーニングデータソースを求める研究者によってさらに重要になっている。しかし、シミュレーションモデルの構築は依然として手作業で行われていることが多い。グラフィックデザイナとシミュレーションエンジニアは、事前に定義された資産を使って、リアルな動的およびキネマティックな特性を持つリッチなシーンを構築する。これは、データ駆動型ロボット制御に必要な一般化特性を達成するために、少数のシーンにスケールする可能性があるが、我々は「自然」キネマティック構造と動的構造を完備した、多数の現実的なシーンを合成できるパイプラインが必要である。この問題に対処するため、我々は自然画像から構造を推論しシミュレーションシーンを生成するモデルを開発し、Webスケールのデータセットからスケーラブルなシーン生成を可能にした。これらのイメージ・トゥ・シミュレートモデルをトレーニングするために、現実的な画像から完全なシーンモデルへのマッピング、逆問題のモデル化を可能にするペア化トレーニングデータを生成するために、制御可能なテキスト・ツー・イメージ生成モデルをどのように利用できるかを示す。このパラダイムによって、セマンティックおよび物理リアリズムを用いたシミュレーションにおいて、大規模なシーンデータセットを構築することができることを示す。本稿では,実世界の画像から機械的・動的構造を表現したシミュレーションシーンを生成し,ロボット制御ポリシのトレーニングに使用する統合エンドツーエンドパイプラインを提案する。そして、オブジェクトの操作のようなタスクのために、現実世界にしっかりとデプロイします。そこで本研究は,シミュレーション環境を大規模に生成するためのパイプラインと,ロバストなロボット制御ポリシをトレーニングする統合システムの両方を提供する。

関連論文リスト

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer [62.18680935878919]
レンダリングを時間的に一貫した出力に変換するオンライン生成拡張フレームワークであるDiffusionHarmonizerを紹介した。コアとなるのは、単一のGPU上でオンラインシミュレータで実行可能な、一段階の時間的条件付きエンハンサーである。
論文参考訳（メタデータ） (2026-02-27T15:35:30Z)
Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文参考訳（メタデータ） (2026-01-24T07:43:57Z)
Real-to-Sim Robot Policy Evaluation with Gaussian Splatting Simulation of Soft-Body Interactions [27.247431258140463]
本稿では,現実の映像からソフトボディのディジタルツインを構築するための,リアル・トゥ・シミュレート・ポリシー評価フレームワークを提案する。我々は,ぬいぐるみのパッキング,ロープルーティング,Tブロックプッシュなど,代表的な変形可能な操作タスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-11-06T18:52:08Z)
RoboPearls: Editable Video Simulation for Robot Manipulation [81.18434338506621]
RoboPearlsは、ロボット操作のための編集可能なビデオシミュレーションフレームワークである。 3D Gaussian Splatting (3DGS)に基づいて構築されたRoboPearlsは、フォトリアリスティックでビュー一貫性のあるシミュレーションの構築を可能にする。我々は、RLBench、COLOSSEUM、Ego4D、Open X-Embodiment、現実世界のロボットなど、複数のデータセットやシーンで広範な実験を行う。
論文参考訳（メタデータ） (2025-06-28T05:03:31Z)
Scan, Materialize, Simulate: A Generalizable Framework for Physically Grounded Robot Planning [16.193477346643295]
Scan, Materialize, Simulate (SMS) は,正確なシーン再構成のための3次元ガウススプラッティング,セマンティックセグメンテーションのための視覚基盤モデル,物質特性推定のための視覚言語モデル,アクション結果の信頼性予測のための物理シミュレーションを組み合わせた統合フレームワークである。本研究は,シーン再構築のための異種レンダリング,セマンティック理解のための基礎モデル,物理に基づくシミュレーションにより,多様な環境にまたがる物理的基盤を持つロボット計画を実現する可能性を強調した。
論文参考訳（メタデータ） (2025-05-20T21:55:01Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
Learning autonomous driving from aerial imagery [67.06858775696453]
フォトグラムシミュレーターは、生成済みの資産を新しいビューに変換することによって、新しいビューを合成することができる。我々は、ニューラルネットワーク場(NeRF)を中間表現として使用し、地上車両の視点から新しいビューを合成する。
論文参考訳（メタデータ） (2024-10-18T05:09:07Z)
Close the Sim2real Gap via Physically-based Structured Light Synthetic Data Simulation [16.69742672616517]
我々は、RGBと物理的にリアルな深度画像を生成する革新的な構造化光シミュレーションシステムを導入する。ロボット産業の把握シナリオに適したRGBDデータセットを作成します。 sim2realのギャップを減らし、深層学習訓練を強化することにより、深層学習モデルを産業環境に適用しやすくする。
論文参考訳（メタデータ） (2024-07-17T09:57:14Z)
Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文参考訳（メタデータ） (2024-06-21T13:48:37Z)
Scaling Face Interaction Graph Networks to Real World Scenes [12.519862235430153]
本稿では,グラフベースの学習シミュレータの実行に必要なメモリを大幅に削減する手法を提案する。提案手法は,従来のグラフベースシミュレータに比べて,精度を保ちながらメモリ使用量が大幅に少ないことを示す。これにより、学習したシミュレータの応用を、推論時に知覚情報しか利用できない設定に拡張する道が開ける。
論文参考訳（メタデータ） (2024-01-22T14:38:25Z)
Reconstructing Objects in-the-wild for Realistic Sensor Simulation [41.55571880832957]
我々は,スパース・イン・ザ・ワイルドデータから正確な幾何学的および現実的な外観を推定する新しい手法であるNeuSimを提案する。物体の外観を物理にインスパイアされた頑健な反射率表現でモデル化し,実測データに有効である。実験の結果,NeuSimはスパース・トレーニング・ビューを持つ難解なシナリオに対して,強力なビュー合成性能を有することがわかった。
論文参考訳（メタデータ） (2023-11-09T18:58:22Z)
Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文参考訳（メタデータ） (2023-10-09T19:42:22Z)
Learning from synthetic data generated with GRADE [0.6982738885923204]
本稿では,ロボット工学研究のための現実的なアニメーション動的環境(GRADE)を作成するためのフレームワークを提案する。 GRADEは、完全なシミュレーション制御、ROS統合、現実物理学をサポートし、高い視覚的忠実度画像と地上真実データを生成するエンジン内にある。合成データのみを用いてトレーニングしても、同一のアプリケーション領域における実世界の画像によく当てはまることを示す。
論文参考訳（メタデータ） (2023-05-07T14:13:04Z)
GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition [81.24107630746508]
GeoSimは、新しい都市の運転シーンを合成するジオメトリ認識の画像合成プロセスです。まず、センサーデータからリアルな形状と外観の両方を備えた多様な3Dオブジェクトのバンクを構築します。得られた合成画像は、フォトリアリズム、トラフィック認識、幾何学的一貫性があり、画像シミュレーションが複雑なユースケースにスケールできる。
論文参考訳（メタデータ） (2021-01-16T23:00:33Z)
Meta-Sim2: Unsupervised Learning of Scene Structure for Synthetic Data Generation [88.04759848307687]
Meta-Sim2では,パラメータに加えてシーン構造を学習することを目指している。強化学習(Reinforcement Learning)を使用してモデルをトレーニングし、トレーニング成功の鍵となる合成画像とターゲット画像の間に特徴空間のばらつきを設計する。また,この手法は,他のベースラインシミュレーション手法と対照的に,生成したデータセット上でトレーニングしたオブジェクト検出器の性能を下流で向上させることを示す。
論文参考訳（メタデータ） (2020-08-20T17:28:45Z)
Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics [33.30312206728974]
本稿では,シーン認識タスクの学習データを生成するための合成パイプラインについて述べる。本手法は,物理シミュレーションを用いて,物体メッシュを物理的に現実的で密集したシーンに配置する。私たちのパイプラインは、ディープニューラルネットワークのトレーニング中にオンラインで実行できます。
論文参考訳（メタデータ） (2020-05-12T10:11:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。