論文の概要: PointMapPolicy: Structured Point Cloud Processing for Multi-Modal Imitation Learning
- arxiv url: http://arxiv.org/abs/2510.20406v1
- Date: Thu, 23 Oct 2025 10:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.744788
- Title: PointMapPolicy: Structured Point Cloud Processing for Multi-Modal Imitation Learning
- Title(参考訳): PointMapPolicy:マルチモーダル模倣学習のための構造化ポイントクラウド処理
- Authors: Xiaogang Jia, Qian Wang, Anrui Wang, Han A. Wang, Balázs Gyenes, Emiliyan Gospodinov, Xinkai Jiang, Ge Li, Hongyi Zhou, Weiran Liao, Xi Huang, Maximilian Beck, Moritz Reuss, Rudolf Lioutikov, Gerhard Neumann,
- Abstract要約: 現在のクラウドメソッドは、特に複雑なタスクにおいて、きめ細かい詳細を捉えるのに苦労しています。
本稿では,ポイントのグリッド上に拡散ポリシを条件付ける新しいアプローチであるPointMapPolicyを紹介する。
モデルでは,RGBデータとポイントマップを効率的に融合し,マルチモーダル知覚を向上する。
- 参考スコア(独自算出の注目度): 35.5287060355186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic manipulation systems benefit from complementary sensing modalities, where each provides unique environmental information. Point clouds capture detailed geometric structure, while RGB images provide rich semantic context. Current point cloud methods struggle to capture fine-grained detail, especially for complex tasks, which RGB methods lack geometric awareness, which hinders their precision and generalization. We introduce PointMapPolicy, a novel approach that conditions diffusion policies on structured grids of points without downsampling. The resulting data type makes it easier to extract shape and spatial relationships from observations, and can be transformed between reference frames. Yet due to their structure in a regular grid, we enable the use of established computer vision techniques directly to 3D data. Using xLSTM as a backbone, our model efficiently fuses the point maps with RGB data for enhanced multi-modal perception. Through extensive experiments on the RoboCasa and CALVIN benchmarks and real robot evaluations, we demonstrate that our method achieves state-of-the-art performance across diverse manipulation tasks. The overview and demos are available on our project page: https://point-map.github.io/Point-Map/
- Abstract(参考訳): ロボット操作システムは、それぞれが独自の環境情報を提供する相補的な感覚モダリティの恩恵を受ける。
点雲は詳細な幾何学的構造を捉え、RGB画像はリッチな意味的コンテキストを提供する。
現在のクラウド手法では、特に複雑なタスクにおいて、その精度と一般化を妨げる幾何学的認識が欠如している。
そこで我々は,ポイントマップポリシィ(PointMapPolicy)について紹介する。
結果として得られるデータ型は、観察から形状や空間的関係を抽出しやすくし、参照フレーム間で変換することができる。
しかし,通常の格子構造であるため,既存のコンピュータビジョン技術を直接3Dデータに利用することができる。
バックボーンとしてxLSTMを用いることで,RGBデータとポイントマップを効率的に融合し,マルチモーダル知覚を増強する。
我々は,RoboCasa と CALVIN のベンチマークと実ロボット評価の広範な実験を通じて,本手法が多種多様な操作タスクにおける最先端性能を実現することを実証した。
概要とデモはプロジェクトのページで公開されている。
関連論文リスト
- CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image [86.75098349480014]
本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組む。
そこで本研究では,Categorical Articulated Partsの6次元ポーズとサイズを推定するためのシングルステージネットワークCAP-Netを提案する。
我々は,RGB画像と実センサからシミュレーションした深度雑音を特徴とするRGB-D調音データセットであるRGBD-Artデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-15T14:30:26Z) - Towards Fusing Point Cloud and Visual Representations for Imitation Learning [57.886331184389604]
本稿では,ポイントクラウドとRGBの両特性を効果的に組み合わせた新しい模倣学習手法であるFPV-Netを提案する。
適応層ノルム条件付けを用いて,グローバルおよびローカル画像トークン上のポイントクラウドエンコーダを条件付けする。
論文 参考訳(メタデータ) (2025-02-17T20:46:54Z) - Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - ImageManip: Image-based Robotic Manipulation with Affordance-guided Next
View Selection [10.162882793554191]
ロボットが環境と対話するためには、3Dの関節による物体操作が不可欠である。
既存の多くの研究では、操作ポリシーの主要な入力として3Dポイントクラウドを使用している。
RGB画像は、コスト効率の良い装置を用いた高分解能な観察を提供するが、空間的3次元幾何学的情報は欠如している。
このフレームワークは、対象対象物の複数の視点を捉え、その幾何学を補完するために深度情報を推測するように設計されている。
論文 参考訳(メタデータ) (2023-10-13T12:42:54Z) - Point-GCC: Universal Self-supervised 3D Scene Pre-training via
Geometry-Color Contrast [9.14535402695962]
点雲によって提供される幾何学と色情報は、3Dシーンの理解に不可欠である。
我々はGeometry-Color Contrast (Point-GCC) を用いたユニバーサル3次元シーン事前学習フレームワークを提案する。
ポイントGCCは、シムズネットワークを用いて幾何学と色情報を整列する。
論文 参考訳(メタデータ) (2023-05-31T07:44:03Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Object-Augmented RGB-D SLAM for Wide-Disparity Relocalisation [3.888848425698769]
本稿では、一貫したオブジェクトマップを構築し、地図内のオブジェクトのセントロイドに基づいて再局在を行うことができるオブジェクト拡張RGB-D SLAMシステムを提案する。
論文 参考訳(メタデータ) (2021-08-05T11:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。