論文の概要: StereoPolicy: Improving Robotic Manipulation Policies via Stereo Perception
- arxiv url: http://arxiv.org/abs/2605.09989v1
- Date: Mon, 11 May 2026 05:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.532509
- Title: StereoPolicy: Improving Robotic Manipulation Policies via Stereo Perception
- Title(参考訳): StereoPolicy: ステレオ知覚によるロボットマニピュレーションポリシーの改善
- Authors: Evans Han, Yunfan Jiang, Yingke Wang, Haoyue Xiao, Huang Huang, Jianwen Xie, Jiajun Wu, Li Fei-Fei, Ruohan Zhang,
- Abstract要約: StereoPolicyは、幾何学的推論を強化するために、同期ステレオ画像ペアを直接活用する、ビジュモータポリシー学習フレームワークである。
本結果は,ロボット操作のための3次元幾何学的理解と2次元事前学習表現を橋渡しする,スケーラブルでロバストなモダリティとしてステレオビジョンを裏付けるものである。
- 参考スコア(独自算出の注目度): 30.791524912385924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in robot imitation learning have yielded powerful visuomotor policies capable of manipulating a wide variety of objects directly from monocular visual inputs. However, monocular observations inherently lack reliable depth cues and spatial awareness, which are critical for precise manipulation in cluttered or geometrically complex scenes. To address this limitation, we introduce StereoPolicy, a new visuomotor policy learning framework that directly leverages synchronized stereo image pairs to strengthen geometric reasoning, without requiring explicit 3D reconstruction or camera calibration. StereoPolicy employs pretrained 2D vision encoders to process each image independently and fuses the resulting representations through a Stereo Transformer. This design implicitly captures spatial correspondence and disparity cues. The framework integrates seamlessly with diffusion-based and pretrained vision-language-action (VLA) policies, delivering consistent improvements over RGB, RGB-D, point cloud, and multi-view baselines across three simulation benchmarks: RoboMimic, RoboCasa, and OmniGibson. We further validate StereoPolicy on real-robot experiments spanning both tabletop and bimanual mobile manipulation settings. Our results underscore stereo vision as a scalable and robust modality that bridges 2D pretrained representations with 3D geometric understanding for robotic manipulation.
- Abstract(参考訳): ロボット模倣学習の最近の進歩は、モノクロ視覚入力から直接多種多様な物体を操作できる強力なビジュモータポリシーを生み出している。
しかし、単分子的な観察は本質的に信頼性の高い奥行きの手がかりや空間的な認識を欠いているため、散らばったシーンや幾何学的に複雑なシーンの正確な操作には重要である。
この制限に対処するために、StereoPolicyという、ステレオ画像ペアを直接利用して幾何学的推論を強化し、明示的な3D再構成やカメラキャリブレーションを必要とせずに、新しいビジュモータポリシー学習フレームワークを導入する。
StereoPolicyは、トレーニング済みの2Dビジョンエンコーダを使用して、各画像を独立して処理し、その結果の表現をStereo Transformerを通じて融合する。
このデザインは暗黙的に空間的対応と不一致の手がかりをキャプチャする。
このフレームワークは拡散ベースおよび事前訓練された視覚言語アクション(VLA)ポリシーとシームレスに統合され、RGB、RGB-D、ポイントクラウド、マルチビューベースラインに対して、RoboMimic、RoboCasa、OmniGibsonの3つのベンチマークベンチマークで一貫した改善を提供する。
さらに、テーブルトップとバイマニュアルのモバイル操作設定の両方にまたがる実ロボット実験について、StereoPolicyを検証する。
本結果は,ロボット操作のための3次元幾何学的理解と2次元事前学習表現を橋渡しする,スケーラブルでロバストなモダリティとしてステレオビジョンを裏付けるものである。
関連論文リスト
- Robotic Manipulation is Vision-to-Geometry Mapping ($f(v) \rightarrow G$): Vision-Geometry Backbones over Language and Video Models [65.05130114320734]
一般化可能なロボット制御の基礎は、広く採用されている視覚言語やビデオモデルではなく、視覚幾何学のバックボーンであるべきだと我々は主張する。
本研究では,事前訓練されたネイティブ3次元表現上でのアクション生成を直接条件付きで行うビジョン・ジオメトリ・アクション・モデルを提案する。
具体的には、VGAは従来の言語やビデオのバックボーンを事前訓練された3Dワールドモデルに置き換え、シームレスな視覚と幾何学のマッピングを確立する。
論文 参考訳(メタデータ) (2026-04-14T15:57:16Z) - Stereo World Model: Camera-Guided Stereo Video Generation [52.3922115596956]
本稿では、ステレオビデオ生成のための外観と両眼形状を共同で学習するカメラコンディショニングステレオワールドモデルであるStereoWorldを紹介する。
単分子RGBやRGBDのアプローチとは異なり、StereoWorldはRGBモードでのみ動作する。
論文 参考訳(メタデータ) (2026-03-18T05:42:22Z) - Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction [70.06600045165905]
3D空間認識は、一般的なロボット操作の基本であるが、信頼性が高く高品質な3D形状の取得は依然として困難である。
本稿では,RGB画像やロボットの状態から直接,正確な距離スケールのシーン形状をリアルタイムで予測する操作可能な3次元再構成モデルであるRobo3Rを紹介する。
我々は、ロボット操作のためのこの代替3Dセンシングモジュールの約束を示唆し、パフォーマンスの連続的な向上を観察する。
論文 参考訳(メタデータ) (2026-02-10T18:58:15Z) - DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。
マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。
我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations [19.71090711790973]
本稿では,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークを提案する。
提案手法は,Masked Autoencoderを用いて空間認識と意味理解を統合した。
我々は、カメラビューのあいまいさを軽減し、一般化を改善し、テスト時間における新しい視点からの堅牢な認識を可能にする。
論文 参考訳(メタデータ) (2025-07-11T02:16:32Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。