論文の概要: PointPatchRL -- Masked Reconstruction Improves Reinforcement Learning on Point Clouds
- arxiv url: http://arxiv.org/abs/2410.18800v1
- Date: Thu, 24 Oct 2024 14:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:48:57.911886
- Title: PointPatchRL -- Masked Reconstruction Improves Reinforcement Learning on Point Clouds
- Title(参考訳): PointPatchRL -- ポイントクラウド上での強化学習を改善するマスク付き再構築
- Authors: Balázs Gyenes, Nikolai Franke, Philipp Becker, Gerhard Neumann,
- Abstract要約: 本稿では,ポイントクラウド上での強化学習(RL)手法であるPointPatchRL(PPRL)を紹介する。
PPRLは、ポイントクラウドを重複パッチに分割し、トークン化し、トークンをトランスフォーマーで処理するという共通のパラダイムに基づいている。
本手法は,複雑な操作タスクにおける画像観察において,モデルフリー,モデルベースベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.53674607464823
- License:
- Abstract: Perceiving the environment via cameras is crucial for Reinforcement Learning (RL) in robotics. While images are a convenient form of representation, they often complicate extracting important geometric details, especially with varying geometries or deformable objects. In contrast, point clouds naturally represent this geometry and easily integrate color and positional data from multiple camera views. However, while deep learning on point clouds has seen many recent successes, RL on point clouds is under-researched, with only the simplest encoder architecture considered in the literature. We introduce PointPatchRL (PPRL), a method for RL on point clouds that builds on the common paradigm of dividing point clouds into overlapping patches, tokenizing them, and processing the tokens with transformers. PPRL provides significant improvements compared with other point-cloud processing architectures previously used for RL. We then complement PPRL with masked reconstruction for representation learning and show that our method outperforms strong model-free and model-based baselines on image observations in complex manipulation tasks containing deformable objects and variations in target object geometry. Videos and code are available at https://alrhub.github.io/pprl-website
- Abstract(参考訳): ロボット工学における強化学習(Reinforcement Learning, RL)には, カメラによる環境認識が不可欠である。
画像は便利な表現形式であるが、重要な幾何学的詳細、特に様々な測地や変形可能な物体の抽出を複雑にすることが多い。
対照的に、点雲は自然にこの幾何学を表現し、複数のカメラビューから色と位置のデータを容易に統合する。
しかし、ポイントクラウドでのディープラーニングは近年多くの成功をおさめているが、ポイントクラウドでのRLは研究が過小評価されており、文献では最も単純なエンコーダアーキテクチャのみが考慮されている。
我々は、ポイントクラウドを重複パッチに分割し、トークン化し、トークンをトランスフォーマーで処理するという共通のパラダイムに基づいて、ポイントクラウド上のRLのメソッドであるPointPatchRL(PPRL)を紹介した。
PPRLは、以前RLで使用されていた他のポイントクラウド処理アーキテクチャと比較して、大幅に改善されている。
次に,PPRLを表現学習のためのマスク付き再構成で補完し,変形可能なオブジェクトを含む複雑な操作タスクにおいて,画像観察における強力なモデルフリーおよびモデルベースラインよりも優れた性能を示すことを示す。
ビデオとコードはhttps://alrhub.github.io/pprl-websiteで公開されている。
関連論文リスト
- Trainable Pointwise Decoder Module for Point Cloud Segmentation [12.233802912441476]
ポイントクラウドセグメンテーション(PCS)は、ポイントごとの予測を行い、ロボットや自動運転車が環境を理解することを可能にすることを目的としている。
後処理手法としてトレーニング可能なポイントワイズデコーダモジュール(PDM)を提案する。
また、データ拡張に仮想レンジ画像誘導コピー・ロータート・ペースト戦略を導入する。
論文 参考訳(メタデータ) (2024-08-02T19:29:35Z) - PointRegGPT: Boosting 3D Point Cloud Registration using Generative Point-Cloud Pairs for Training [90.06520673092702]
生成点クラウドペアを用いた3Dポイントクラウドの登録をトレーニングのために促進するPointRegGPTを提案する。
我々の知る限り、これは屋内のクラウド登録のためのリアルなデータ生成を探求する最初の生成的アプローチである。
論文 参考訳(メタデータ) (2024-07-19T06:29:57Z) - Self-supervised 3D Point Cloud Completion via Multi-view Adversarial Learning [61.14132533712537]
我々は、オブジェクトレベルとカテゴリ固有の幾何学的類似性の両方を効果的に活用するフレームワークであるMAL-SPCを提案する。
私たちのMAL-SPCは3Dの完全な監視を一切必要とせず、各オブジェクトに1つの部分点クラウドを必要とするだけです。
論文 参考訳(メタデータ) (2024-07-13T06:53:39Z) - DiffPoint: Single and Multi-view Point Cloud Reconstruction with ViT
Based Diffusion Model [10.253402444122084]
我々は,ポイントクラウド再構築の課題に対して,ViTと拡散モデルを組み合わせたDiffPointという巧妙で強力なアーキテクチャを提案する。
DiffPointを単視点と多視点の両方の再構成タスクで評価し、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-17T10:18:40Z) - Object Re-Identification from Point Clouds [3.6308236424346694]
我々は,物体ReIDを点雲から大規模に研究し,画像ReIDに対してその性能を確立する。
我々の知る限りでは、我々は実際の雲の観測から物体の再同定を初めて研究している。
論文 参考訳(メタデータ) (2023-05-17T13:43:03Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - Ponder: Point Cloud Pre-training via Neural Rendering [93.34522605321514]
本稿では,識別可能なニューラルエンコーダによる点雲表現の自己教師型学習手法を提案する。
学習したポイントクラウドは、3D検出やセグメンテーションといったハイレベルなレンダリングタスクだけでなく、3D再構成や画像レンダリングといった低レベルなタスクを含む、さまざまなダウンストリームタスクに簡単に統合できる。
論文 参考訳(メタデータ) (2022-12-31T08:58:39Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers [81.71904691925428]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々はまた、ポイントクラウド補完のためにトランスフォーマーエンコーダデコーダアーキテクチャを採用するPoinTrと呼ばれる新しいモデルも設計している。
提案手法は,新しいベンチマークと既存ベンチマークの両方において,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T17:58:56Z) - TearingNet: Point Cloud Autoencoder to Learn Topology-Friendly
Representations [20.318695890515613]
本稿では,固定長ディスクリプタを用いたポイントクラウドの表現に挑戦する自動エンコーダTearingNetを提案する。
我々のTeringNetは、提案されたTeringネットワークモジュールと、相互に反復的に相互作用するFoldingネットワークモジュールによって特徴付けられる。
実験は、点雲の再構成や、ベンチマークよりもトポロジに優しい表現を生成するという点で、我々の提案の優位性を示している。
論文 参考訳(メタデータ) (2020-06-17T22:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。