論文の概要: Frame Mining: a Free Lunch for Learning Robotic Manipulation from 3D
Point Clouds
- arxiv url: http://arxiv.org/abs/2210.07442v1
- Date: Fri, 14 Oct 2022 01:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 17:47:03.224376
- Title: Frame Mining: a Free Lunch for Learning Robotic Manipulation from 3D
Point Clouds
- Title(参考訳): フレームマイニング:3次元点雲からロボット操作を学習するためのフリーランチ
- Authors: Minghua Liu, Xuanlin Li, Zhan Ling, Yangyan Li, Hao Su
- Abstract要約: 入力点クラウド座標フレームの選択が3次元点クラウドからの操作スキルの学習にどのように影響するかを検討する。
本研究では,適応的に候補フレームを選択し,タスクに依存しない方法でそれらのメリットを融合するFrameMinersを提案する。
- 参考スコア(独自算出の注目度): 24.69116897450494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how choices of input point cloud coordinate frames impact learning
of manipulation skills from 3D point clouds. There exist a variety of
coordinate frame choices to normalize captured robot-object-interaction point
clouds. We find that different frames have a profound effect on agent learning
performance, and the trend is similar across 3D backbone networks. In
particular, the end-effector frame and the target-part frame achieve higher
training efficiency than the commonly used world frame and robot-base frame in
many tasks, intuitively because they provide helpful alignments among point
clouds across time steps and thus can simplify visual module learning.
Moreover, the well-performing frames vary across tasks, and some tasks may
benefit from multiple frame candidates. We thus propose FrameMiners to
adaptively select candidate frames and fuse their merits in a task-agnostic
manner. Experimentally, FrameMiners achieves on-par or significantly higher
performance than the best single-frame version on five fully physical
manipulation tasks adapted from ManiSkill and OCRTOC. Without changing existing
camera placements or adding extra cameras, point cloud frame mining can serve
as a free lunch to improve 3D manipulation learning.
- Abstract(参考訳): 入力点クラウド座標フレームの選択が3次元点クラウドからの操作スキルの学習に与える影響について検討する。
捕獲されたロボット-物体-相互作用点雲を正規化するための座標フレーム選択は様々である。
異なるフレームがエージェントの学習性能に多大な影響を与えており、その傾向は3dバックボーンネットワークでも同様である。
特に、エンドエフェクタフレームとターゲットパートフレームは多くのタスクで一般的に使用されるワールドフレームとロボットベースフレームよりも高いトレーニング効率を実現している。
さらに、優れたフレームはタスクによって異なり、いくつかのタスクは複数のフレーム候補の恩恵を受ける。
本研究では,候補フレームを適応的に選択し,そのメリットをタスクに依存しない方法で融合するフレームマイナを提案する。
実験的に、FrameMiners は ManiSkill と OCRTOC から適応した5つの完全な物理操作タスクにおいて、最高のシングルフレームバージョンよりも同等またははるかに高いパフォーマンスを達成する。
既存のカメラ配置を変更したり、追加のカメラを追加することなく、point cloud frame miningは3d操作学習を改善するための無料のランチとして機能する。
関連論文リスト
- Framer: Interactive Frame Interpolation [73.06734414930227]
Framerのターゲットは、ユーザのクリエイティビティに応じて、2つのイメージ間のスムーズな遷移フレームを生成することだ。
提案手法は,選択したキーポイントの軌道を調整し,遷移過程のカスタマイズを支援する。
ここでは,キーポイントと軌道を自動的に推定するモジュールを導入する。
論文 参考訳(メタデータ) (2024-10-24T17:59:51Z) - Cross-Modal Self-Supervised Learning with Effective Contrastive Units for LiDAR Point Clouds [34.99995524090838]
LiDARポイントクラウドにおける3D知覚は、自動運転車が3D環境で適切に機能するためには不可欠である。
3次元知覚モデルの自己教師付き事前学習への関心が高まっている。
我々は、自動運転点雲に適したインスタンス認識および類似性バランスのコントラストユニットを提案する。
論文 参考訳(メタデータ) (2024-09-10T19:11:45Z) - Visual Representation Learning with Stochastic Frame Prediction [90.99577838303297]
本稿では,フレーム予測における不確実性を捉えることを学ぶ映像生成の考え方を再考する。
フレーム間の時間情報を学習するためのフレーム予測モデルを訓練するフレームワークを設計する。
このアーキテクチャは、両目的を相乗的かつ計算効率のよい方法で組み合わせることができる。
論文 参考訳(メタデータ) (2024-06-11T16:05:15Z) - Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - INT: Towards Infinite-frames 3D Detection with An Efficient Framework [20.1909600450762]
連続的なストリームのために、シングルフレームの3D検出器の代わりにマルチフレームを構築するのは自然なことです。
従来のマルチフレームの研究では、計算とメモリのコストが劇的に増加したため、システムを構築するのに非常に限られたフレームしか使われていなかった。
本稿では,単一フレーム検出器と同じ計算量を維持しつつ,無限のフレームを使用できる新しいオンストリームトレーニングおよび予測フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-30T04:03:40Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - PointINet: Point Cloud Frame Interpolation Network [9.626246913697427]
Point Cloud Frame Interpolationは、2つの連続したポイントクラウドフレームを付与し、中間フレームを生成します。
提案手法に基づいて,低フレームレート点のクラウドストリームを高フレームレートにアップサンプリングすることができる。
そこで本研究では,2つの点雲を同時に考慮した新しい学習型点融合モジュールを提案する。
論文 参考訳(メタデータ) (2020-12-18T06:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。