論文の概要: Frame Mining: a Free Lunch for Learning Robotic Manipulation from 3D
Point Clouds
- arxiv url: http://arxiv.org/abs/2210.07442v1
- Date: Fri, 14 Oct 2022 01:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 17:47:03.224376
- Title: Frame Mining: a Free Lunch for Learning Robotic Manipulation from 3D
Point Clouds
- Title(参考訳): フレームマイニング:3次元点雲からロボット操作を学習するためのフリーランチ
- Authors: Minghua Liu, Xuanlin Li, Zhan Ling, Yangyan Li, Hao Su
- Abstract要約: 入力点クラウド座標フレームの選択が3次元点クラウドからの操作スキルの学習にどのように影響するかを検討する。
本研究では,適応的に候補フレームを選択し,タスクに依存しない方法でそれらのメリットを融合するFrameMinersを提案する。
- 参考スコア(独自算出の注目度): 24.69116897450494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how choices of input point cloud coordinate frames impact learning
of manipulation skills from 3D point clouds. There exist a variety of
coordinate frame choices to normalize captured robot-object-interaction point
clouds. We find that different frames have a profound effect on agent learning
performance, and the trend is similar across 3D backbone networks. In
particular, the end-effector frame and the target-part frame achieve higher
training efficiency than the commonly used world frame and robot-base frame in
many tasks, intuitively because they provide helpful alignments among point
clouds across time steps and thus can simplify visual module learning.
Moreover, the well-performing frames vary across tasks, and some tasks may
benefit from multiple frame candidates. We thus propose FrameMiners to
adaptively select candidate frames and fuse their merits in a task-agnostic
manner. Experimentally, FrameMiners achieves on-par or significantly higher
performance than the best single-frame version on five fully physical
manipulation tasks adapted from ManiSkill and OCRTOC. Without changing existing
camera placements or adding extra cameras, point cloud frame mining can serve
as a free lunch to improve 3D manipulation learning.
- Abstract(参考訳): 入力点クラウド座標フレームの選択が3次元点クラウドからの操作スキルの学習に与える影響について検討する。
捕獲されたロボット-物体-相互作用点雲を正規化するための座標フレーム選択は様々である。
異なるフレームがエージェントの学習性能に多大な影響を与えており、その傾向は3dバックボーンネットワークでも同様である。
特に、エンドエフェクタフレームとターゲットパートフレームは多くのタスクで一般的に使用されるワールドフレームとロボットベースフレームよりも高いトレーニング効率を実現している。
さらに、優れたフレームはタスクによって異なり、いくつかのタスクは複数のフレーム候補の恩恵を受ける。
本研究では,候補フレームを適応的に選択し,そのメリットをタスクに依存しない方法で融合するフレームマイナを提案する。
実験的に、FrameMiners は ManiSkill と OCRTOC から適応した5つの完全な物理操作タスクにおいて、最高のシングルフレームバージョンよりも同等またははるかに高いパフォーマンスを達成する。
既存のカメラ配置を変更したり、追加のカメラを追加することなく、point cloud frame miningは3d操作学習を改善するための無料のランチとして機能する。
関連論文リスト
- PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via
Foundation Models [53.45712917347696]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する、新しいトレーニングフリーパラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
このアプローチは,ScanNet,ScanNet++,KITTI-360データセット上の13.4$%,11.3$%,12$%のmAPで最先端のスペシャリストモデルを大幅に上回る。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Ponder: Point Cloud Pre-training via Neural Rendering [93.34522605321514]
本稿では,識別可能なニューラルエンコーダによる点雲表現の自己教師型学習手法を提案する。
学習したポイントクラウドは、3D検出やセグメンテーションといったハイレベルなレンダリングタスクだけでなく、3D再構成や画像レンダリングといった低レベルなタスクを含む、さまざまなダウンストリームタスクに簡単に統合できる。
論文 参考訳(メタデータ) (2022-12-31T08:58:39Z) - INT: Towards Infinite-frames 3D Detection with An Efficient Framework [20.1909600450762]
連続的なストリームのために、シングルフレームの3D検出器の代わりにマルチフレームを構築するのは自然なことです。
従来のマルチフレームの研究では、計算とメモリのコストが劇的に増加したため、システムを構築するのに非常に限られたフレームしか使われていなかった。
本稿では,単一フレーム検出器と同じ計算量を維持しつつ,無限のフレームを使用できる新しいオンストリームトレーニングおよび予測フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-30T04:03:40Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - 3D-MAN: 3D Multi-frame Attention Network for Object Detection [22.291051951077485]
3D-MANは、複数の視点から効果的に機能を集約する3Dマルチフレームアテンションネットワークです。
3D-MANは, 単フレームおよび複数フレームの手法と比較して, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-30T03:44:22Z) - PointINet: Point Cloud Frame Interpolation Network [9.626246913697427]
Point Cloud Frame Interpolationは、2つの連続したポイントクラウドフレームを付与し、中間フレームを生成します。
提案手法に基づいて,低フレームレート点のクラウドストリームを高フレームレートにアップサンプリングすることができる。
そこで本研究では,2つの点雲を同時に考慮した新しい学習型点融合モジュールを提案する。
論文 参考訳(メタデータ) (2020-12-18T06:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。