論文の概要: OmniDP: Beyond-FOV Large-Workspace Humanoid Manipulation with Omnidirectional 3D Perception
- arxiv url: http://arxiv.org/abs/2603.05355v2
- Date: Fri, 06 Mar 2026 15:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.946939
- Title: OmniDP: Beyond-FOV Large-Workspace Humanoid Manipulation with Omnidirectional 3D Perception
- Title(参考訳): OmniDP:全方向3次元知覚を用いた大規模作業空間ヒューマノイドマニピュレーション
- Authors: Pei Qu, Zheng Li, Yufei Jia, Ziyun Liu, Liang Zhu, Haoang Li, Jinni Zhou, Jun Ma,
- Abstract要約: 本稿では,大規模ワークスペースにおけるロバストな操作を可能にする,エンド・ツー・エンドのLiDAR駆動型3Dビジュモータポリシーを提案する。
本研究では,パノラマ点群をタイムアウェア・アテンション・プール機構で処理し,スパース3Dデータを効率的に符号化する。
この360度認識により、ロボットは頻繁な再配置なしに広範囲の物体と対話できる。
- 参考スコア(独自算出の注目度): 12.601221316998222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of humanoid robots for dexterous manipulation in unstructured environments remains challenging due to perceptual limitations that constrain the effective workspace. In scenarios where physical constraints prevent the robot from repositioning itself, maintaining omnidirectional awareness becomes far more critical than color or semantic information.While recent advances in visuomotor policy learning have improved manipulation capabilities, conventional RGB-D solutions suffer from narrow fields of view (FOV) and self-occlusion, requiring frequent base movements that introduce motion uncertainty and safety risks. Existing approaches to expanding perception, including active vision systems and third-view cameras, introduce mechanical complexity, calibration dependencies, and latency that hinder reliable real-time performance. In this work, We propose OmniDP, an end-to-end LiDAR-driven 3D visuomotor policy that enables robust manipulation in large workspaces. Our method processes panoramic point clouds through a Time-Aware Attention Pooling mechanism, efficiently encoding sparse 3D data while capturing temporal dependencies. This 360° perception allows the robot to interact with objects across wide areas without frequent repositioning. To support policy learning, we develop a whole-body teleoperation system for efficient data collection on full-body coordination. Extensive experiments in simulation and real-world environments show that OmniDP achieves robust performance in large-workspace and cluttered scenarios, outperforming baselines that rely on egocentric depth cameras.
- Abstract(参考訳): 人型ロボットの非構造環境における巧妙な操作のための展開は、効果的な作業空間を制限する知覚的制約のため、いまだに困難である。
身体的制約がロボットの再配置を妨げている場合、全方位認識は色や意味情報よりもはるかに重要となるが、近年の視覚的ポリシー学習の進歩により操作性が向上したが、従来のRGB-Dソリューションは狭い視野(FOV)と自己閉塞に悩まされ、動きの不確実性や安全性のリスクをもたらす頻繁なベースムーブメントが要求される。
アクティブビジョンシステムやサードビューカメラなどの既存のアプローチでは、機械的な複雑さ、キャリブレーション依存性、信頼性の高いリアルタイムパフォーマンスを妨げるレイテンシが導入されている。
本研究では,大規模ワークスペースにおけるロバストな操作を可能にする,エンド・ツー・エンドのLiDAR駆動型3DビジュモータポリシであるOmniDPを提案する。
本手法は,時間認識型アテンションプール機構を通じてパノラマ点雲を処理し,時間依存性を捉えながらスパース3Dデータを効率的に符号化する。
この360度認識により、ロボットは頻繁な再配置なしに広範囲の物体と対話できる。
政策学習を支援するために,全体協調のための効率的なデータ収集のための全身遠隔操作システムを開発した。
シミュレーションと実世界の環境における大規模な実験により、OmniDPは大規模なワークスペースや散らばったシナリオにおいて堅牢な性能を達成し、エゴセントリックな深度カメラに依存するベースラインを上回っている。
関連論文リスト
- Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object [26.15314358613966]
本研究は,3次元オブジェクトに対する視点整合型テクスチャ最適化手法を提案する。
最適化戦略として、我々はC2F(Coarse-to-Fine)カリキュラムによる変換への期待(EOT)を採用している。
さらに、サリエンシ誘導による摂動を統合して、政策の注意をリダイレクトし、ロボットを敵の物体に向けて継続的に駆動する目標損失を設計する。
論文 参考訳(メタデータ) (2026-03-05T07:57:47Z) - ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - VGGT-DP: Generalizable Robot Control via Vision Foundation Models [13.41554759983567]
VGGT-DPは、事前学習された3次元知覚モデルから幾何的先入観を受容的フィードバックと統合するビジュモータ・ポリシー・フレームワークである。
我々は,視覚的エンコーダとしてVGGT(Visual Geometry Grounded Transformer)を採用し,視覚的知覚と内部ロボットの状態との整合性を実現するために,プロプリセプション誘導型視覚学習戦略を導入する。
挑戦的なMetaWorldタスクの実験では、VGGT-DPはDPやDP3のような強力なベースライン、特に精度クリティカルで長期のシナリオにおいて著しく優れていた。
論文 参考訳(メタデータ) (2025-09-23T08:15:30Z) - CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations [19.71090711790973]
本稿では,ロボット操作ポリシーの強化を目的とした,新しい3D事前学習フレームワークを提案する。
提案手法は,Masked Autoencoderを用いて空間認識と意味理解を統合した。
我々は、カメラビューのあいまいさを軽減し、一般化を改善し、テスト時間における新しい視点からの堅牢な認識を可能にする。
論文 参考訳(メタデータ) (2025-07-11T02:16:32Z) - EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。
EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。
本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文 参考訳(メタデータ) (2025-01-03T17:00:33Z) - Regularized Deep Signed Distance Fields for Reactive Motion Generation [30.792481441975585]
距離に基づく制約は、ロボットが自分の行動を計画し、安全に行動できるようにするための基本となる。
本研究では,任意のスケールでスムーズな距離場を計算できる単一暗黙関数ReDSDFを提案する。
共有作業空間における全身制御(WBC)と安全なヒューマンロボットインタラクション(HRI)のための代表的タスクにおけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-09T14:21:32Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。