論文の概要: Point Bridge: 3D Representations for Cross Domain Policy Learning
- arxiv url: http://arxiv.org/abs/2601.16212v3
- Date: Fri, 27 Feb 2026 04:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.911912
- Title: Point Bridge: 3D Representations for Cross Domain Policy Learning
- Title(参考訳): ポイントブリッジ: クロスドメイン政策学習のための3D表現
- Authors: Siddhant Haldar, Lars Johannsmeier, Lerrel Pinto, Abhishek Gupta, Dieter Fox, Yashraj Narang, Ajay Mandlekar,
- Abstract要約: Point Bridgeは統合されたドメインに依存しないポイントベース表現を利用するフレームワークである。
人工データのみを使用して実世界の操作エージェントを訓練する。
ゼロショットのsim-to-real転送で最大44%のアップを達成し、制限された実データで最大66%のアップを達成している。
- 参考スコア(独自算出の注目度): 43.12724292342628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot foundation models are beginning to deliver on the promise of generalist robotic agents, yet progress remains constrained by the scarcity of large-scale real-world manipulation datasets. Simulation and synthetic data generation offer a scalable alternative, but their usefulness is limited by the visual domain gap between simulation and reality. In this work, we present Point Bridge, a framework that leverages unified, domain-agnostic point-based representations to unlock synthetic datasets for zero-shot sim-to-real policy transfer, without explicit visual or object-level alignment. Point Bridge combines automated point-based representation extraction via Vision-Language Models (VLMs), transformer-based policy learning, and efficient inference-time pipelines to train capable real-world manipulation agents using only synthetic data. With additional co-training on small sets of real demonstrations, Point Bridge further improves performance, substantially outperforming prior vision-based sim-and-real co-training methods. It achieves up to 44% gains in zero-shot sim-to-real transfer and up to 66% with limited real data across both single-task and multitask settings. Videos of the robot are best viewed at: https://pointbridge3d.github.io/
- Abstract(参考訳): ロボットファンデーションモデルは、ジェネラリストロボットエージェントの約束を達成し始めているが、大規模な実世界の操作データセットの不足により、進歩は依然として制限されている。
シミュレーションと合成データ生成はスケーラブルな代替手段を提供するが、その有用性はシミュレーションと現実の間の視覚領域のギャップによって制限される。
本研究では、ドメインに依存しない統一的なポイントベース表現を利用して、ゼロショットのsim-to-realポリシー転送のための合成データセットを、明示的な視覚的あるいはオブジェクトレベルのアライメントなしでアンロックするフレームワークであるPoint Bridgeを提案する。
ポイントブリッジは、ビジョンランゲージモデル(VLM)による自動ポイントベース表現抽出、トランスフォーマーベースのポリシー学習、効率的な推論時間パイプラインを組み合わせて、合成データのみを使用して実世界の操作エージェントを訓練する。
実際のデモの小さなセットでのコトレーニングの追加により、ポイントブリッジはパフォーマンスをさらに向上し、以前のビジョンベースのsim-and-realコトレーニング方法よりも大幅に向上した。
ゼロショットのsim-to-real転送で最大44%、シングルタスクとマルチタスクの両方で制限された実データで最大66%のアップを実現している。
ロボットのビデオは以下の通り。
関連論文リスト
- ExoGS: A 4D Real-to-Sim-to-Real Framework for Scalable Manipulation Data Collection [27.18540416686717]
ExoGSはロボットフリーの4D Real-to-Sim-to-Realフレームワークである。
実世界の静的環境と動的相互作用の両方をキャプチャし、それらをシミュレートされた環境にシームレスに転送する。
スケーラブルなデータ収集とポリシー学習のための新しいソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-26T16:04:12Z) - BlendCLIP: Bridging Synthetic and Real Domains for Zero-Shot 3D Object Classification with Multimodal Pretraining [2.400704807305413]
ゼロショットの3Dオブジェクト分類は、自動運転のような現実世界のアプリケーションには不可欠だ。
トレーニングに使用される合成データと、現実世界で遭遇するノイズの多いLiDARスキャンとの間の大きな領域ギャップによって、しばしば妨げられる。
BlendCLIPは、両ドメインの強みを戦略的に組み合わせることで、この合成と現実のギャップを橋渡しするマルチモーダル事前学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-21T03:08:27Z) - Sim2Real Transfer for Vision-Based Grasp Verification [7.9471205712560264]
本稿では,ロボットグリップが物体の把握に成功しているかどうかを判断するために,視力に基づく検証手法を提案する。
本手法は,ロボットのグリップを検知し,検出するための,最初のYOLOに基づく物体検出モデルである2段階アーキテクチャを用いている。
実世界のデータキャプチャの限界に対処するために,多様な把握シナリオをシミュレートする合成データセットであるHSR-Grasp Synthを導入する。
論文 参考訳(メタデータ) (2025-05-05T22:04:12Z) - Synth It Like KITTI: Synthetic Data Generation for Object Detection in Driving Scenarios [3.30184292168618]
本稿では,LiDAR点雲上での3次元物体検出のためのCARLAシミュレータに基づくデータセット生成パイプラインを提案する。
我々は、合成データに基づいてオブジェクト検出器を訓練し、KITTIデータセットに強力な一般化能力を示すことができる。
論文 参考訳(メタデータ) (2025-02-20T22:27:42Z) - P3-PO: Prescriptive Point Priors for Visuo-Spatial Generalization of Robot Policies [19.12762500264209]
Prescriptive Point Priors for Policies(P3-PO)は、環境のユニークな状態表現を構築する新しいフレームワークである。
P3-POは、新しいオブジェクトインスタンスとより散らかった環境のために、タスク全体で58%と80%のゲインを示す。
論文 参考訳(メタデータ) (2024-12-09T18:59:42Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - RPMArt: Towards Robust Perception and Manipulation for Articulated Objects [56.73978941406907]
本稿では,Articulated Objects (RPMArt) のロバスト知覚と操作のためのフレームワークを提案する。
RPMArtは、調音パラメータを推定し、雑音の多い点雲から調音部分を操作することを学習する。
我々は,シミュレート・トゥ・リアル・トランスファーの能力を高めるための調音認識型分類手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T05:55:39Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。