論文の概要: Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning
- arxiv url: http://arxiv.org/abs/2405.18196v1
- Date: Tue, 28 May 2024 14:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:19:39.677208
- Title: Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning
- Title(参考訳): Render and Diffuse:Diffusion-based Behaviour Cloningのための画像と行動空間の調整
- Authors: Vitalis Vosylius, Younggyo Seo, Jafar Uruç, Stephen James,
- Abstract要約: Render and Diffuse(R&D)は,ロボットの3次元モデルの仮想レンダリングを用いて,画像空間内の低レベルロボット動作とRGB観察を統一する手法である。
この空間統一は学習問題を単純化し、サンプル効率と空間一般化に不可欠な帰納バイアスを導入する。
以上の結果から,R&Dは空間一般化能力が高く,より一般的なイメージ・ツー・アクション法よりもサンプリング効率が高いことがわかった。
- 参考スコア(独自算出の注目度): 15.266994159289645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of Robot Learning, the complex mapping between high-dimensional observations such as RGB images and low-level robotic actions, two inherently very different spaces, constitutes a complex learning problem, especially with limited amounts of data. In this work, we introduce Render and Diffuse (R&D) a method that unifies low-level robot actions and RGB observations within the image space using virtual renders of the 3D model of the robot. Using this joint observation-action representation it computes low-level robot actions using a learnt diffusion process that iteratively updates the virtual renders of the robot. This space unification simplifies the learning problem and introduces inductive biases that are crucial for sample efficiency and spatial generalisation. We thoroughly evaluate several variants of R&D in simulation and showcase their applicability on six everyday tasks in the real world. Our results show that R&D exhibits strong spatial generalisation capabilities and is more sample efficient than more common image-to-action methods.
- Abstract(参考訳): ロボット学習の分野において、RGB画像のような高次元の観測と低レベルのロボット行動の複雑なマッピングは、2つの本質的に非常に異なる空間であり、特に限られた量のデータで複雑な学習問題を構成する。
本研究では,ロボットの3次元モデルの仮想レンダリングを用いて,画像空間内の低レベルロボット動作とRGB観察を統一するRender and Diffuse(R&D)を提案する。
この共同観測行動表現を用いて、ロボットの仮想レンダリングを反復的に更新する学習拡散プロセスを用いて、低レベルのロボット動作を計算する。
この空間統一は学習問題を単純化し、サンプル効率と空間一般化に不可欠な帰納バイアスを導入する。
シミュレーションにおけるR&Dのいくつかのバリエーションを徹底的に評価し、実世界の6つの日常的なタスクに適用可能性を示す。
以上の結果から,R&Dは空間一般化能力が高く,より一般的なイメージ・ツー・アクション法よりもサンプリング効率が高いことがわかった。
関連論文リスト
- Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - 3D Hand Mesh Recovery from Monocular RGB in Camera Space [3.0453197258042213]
本研究では,ルート相対格子とルート回復タスクの並列処理を行うネットワークモデルを提案する。
暗黙的な学習手法を2次元ヒートマップに適用し、異なるサブタスク間の2次元キューの互換性を向上させる。
提案モデルは最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2024-05-12T05:36:37Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - A Universal Semantic-Geometric Representation for Robotic Manipulation [42.18087956844491]
本稿では,ロボット工学の汎用認識モジュールであるtextbfSemantic-Geometric Representation (textbfSGR) について述べる。
SGRは、大規模事前訓練された2次元モデルのリッチな意味情報を活用し、3次元空間推論の利点を継承する。
我々の実験は、SGRがエージェントに様々なシミュレーションおよび実世界のロボット操作タスクを完了させることを実証した。
論文 参考訳(メタデータ) (2023-06-18T04:34:17Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional,
and Incremental Robot Learning [41.19148076789516]
上記の4つの要件を満たすために,SAGCIシステムと呼ばれる体系的な学習フレームワークを導入する。
本システムはまず,ロボットの手首に搭載されたカメラによって収集された生点雲を入力とし,URDFに代表される周囲環境の初期モデリングを生成する。
そのロボットは、対話的な知覚を利用して環境と対話し、URDFのオンライン検証と修正を行う。
論文 参考訳(メタデータ) (2021-11-29T16:53:49Z) - Synergies Between Affordance and Geometry: 6-DoF Grasp Detection via
Implicit Representations [20.155920256334706]
本研究では,3次元再構築と把持学習が密接な関係にあることを示す。
共有表現のマルチタスク学習を通じて,把握能力と3次元再構築のシナジーを活用することを提案する。
本手法は,成功率の把握において,ベースラインを10%以上上回っている。
論文 参考訳(メタデータ) (2021-04-04T05:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。