Fugu-MT 論文翻訳(概要): Frame Mining: a Free Lunch for Learning Robotic Manipulation from 3D Point Clouds

論文の概要: Frame Mining: a Free Lunch for Learning Robotic Manipulation from 3D Point Clouds

arxiv url: http://arxiv.org/abs/2210.07442v1
Date: Fri, 14 Oct 2022 01:05:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 17:47:03.224376
Title: Frame Mining: a Free Lunch for Learning Robotic Manipulation from 3D Point Clouds
Title（参考訳）: フレームマイニング:3次元点雲からロボット操作を学習するためのフリーランチ
Authors: Minghua Liu, Xuanlin Li, Zhan Ling, Yangyan Li, Hao Su
Abstract要約: 入力点クラウド座標フレームの選択が3次元点クラウドからの操作スキルの学習にどのように影響するかを検討する。本研究では,適応的に候補フレームを選択し,タスクに依存しない方法でそれらのメリットを融合するFrameMinersを提案する。
参考スコア（独自算出の注目度）: 24.69116897450494
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study how choices of input point cloud coordinate frames impact learning of manipulation skills from 3D point clouds. There exist a variety of coordinate frame choices to normalize captured robot-object-interaction point clouds. We find that different frames have a profound effect on agent learning performance, and the trend is similar across 3D backbone networks. In particular, the end-effector frame and the target-part frame achieve higher training efficiency than the commonly used world frame and robot-base frame in many tasks, intuitively because they provide helpful alignments among point clouds across time steps and thus can simplify visual module learning. Moreover, the well-performing frames vary across tasks, and some tasks may benefit from multiple frame candidates. We thus propose FrameMiners to adaptively select candidate frames and fuse their merits in a task-agnostic manner. Experimentally, FrameMiners achieves on-par or significantly higher performance than the best single-frame version on five fully physical manipulation tasks adapted from ManiSkill and OCRTOC. Without changing existing camera placements or adding extra cameras, point cloud frame mining can serve as a free lunch to improve 3D manipulation learning.
Abstract（参考訳）: 入力点クラウド座標フレームの選択が3次元点クラウドからの操作スキルの学習に与える影響について検討する。捕獲されたロボット-物体-相互作用点雲を正規化するための座標フレーム選択は様々である。異なるフレームがエージェントの学習性能に多大な影響を与えており、その傾向は3dバックボーンネットワークでも同様である。特に、エンドエフェクタフレームとターゲットパートフレームは多くのタスクで一般的に使用されるワールドフレームとロボットベースフレームよりも高いトレーニング効率を実現している。さらに、優れたフレームはタスクによって異なり、いくつかのタスクは複数のフレーム候補の恩恵を受ける。本研究では,候補フレームを適応的に選択し,そのメリットをタスクに依存しない方法で融合するフレームマイナを提案する。実験的に、FrameMiners は ManiSkill と OCRTOC から適応した5つの完全な物理操作タスクにおいて、最高のシングルフレームバージョンよりも同等またははるかに高いパフォーマンスを達成する。既存のカメラ配置を変更したり、追加のカメラを追加することなく、point cloud frame miningは3d操作学習を改善するための無料のランチとして機能する。

関連論文リスト

ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations [19.02933938928656]
ManiVID-3Dはロボット操作のための新しい3Dビジュアル強化学習アーキテクチャである。自己教師付き不整形特徴学習を通じて、ビュー不変表現を学習する。現状の手法よりも44.7%高い成功率を達成する。
論文参考訳（メタデータ） (2025-09-14T06:31:04Z)
TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [34.99141865569255]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文参考訳（メタデータ） (2025-07-20T10:28:06Z)
UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。 UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文参考訳（メタデータ） (2025-06-11T17:23:21Z)
Hyperbolic Contrastive Learning for Hierarchical 3D Point Cloud Embedding [21.50985015159827]
双曲型マルチモーダルコントラスト事前学習における3Dポイントクラウドのモダリティを拡張する。また,階層型3次元埋め込み学習のための細分化,モダリティギャップ,アライメントレギュレータについても検討する。
論文参考訳（メタデータ） (2025-01-04T13:27:18Z)
Framer: Interactive Frame Interpolation [73.06734414930227]
Framerのターゲットは、ユーザのクリエイティビティに応じて、2つのイメージ間のスムーズな遷移フレームを生成することだ。提案手法は,選択したキーポイントの軌道を調整し,遷移過程のカスタマイズを支援する。ここでは,キーポイントと軌道を自動的に推定するモジュールを導入する。
論文参考訳（メタデータ） (2024-10-24T17:59:51Z)
Cross-Modal Self-Supervised Learning with Effective Contrastive Units for LiDAR Point Clouds [34.99995524090838]
LiDARポイントクラウドにおける3D知覚は、自動運転車が3D環境で適切に機能するためには不可欠である。 3次元知覚モデルの自己教師付き事前学習への関心が高まっている。我々は、自動運転点雲に適したインスタンス認識および類似性バランスのコントラストユニットを提案する。
論文参考訳（メタデータ） (2024-09-10T19:11:45Z)
Visual Representation Learning with Stochastic Frame Prediction [90.99577838303297]
本稿では,フレーム予測における不確実性を捉えることを学ぶ映像生成の考え方を再考する。フレーム間の時間情報を学習するためのフレーム予測モデルを訓練するフレームワークを設計する。このアーキテクチャは、両目的を相乗的かつ計算効率のよい方法で組み合わせることができる。
論文参考訳（メタデータ） (2024-06-11T16:05:15Z)
Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文参考訳（メタデータ） (2024-04-15T21:30:50Z)
Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。 3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文参考訳（メタデータ） (2023-07-27T16:07:03Z)
INT: Towards Infinite-frames 3D Detection with An Efficient Framework [20.1909600450762]
連続的なストリームのために、シングルフレームの3D検出器の代わりにマルチフレームを構築するのは自然なことです。従来のマルチフレームの研究では、計算とメモリのコストが劇的に増加したため、システムを構築するのに非常に限られたフレームしか使われていなかった。本稿では,単一フレーム検出器と同じ計算量を維持しつつ,無限のフレームを使用できる新しいオンストリームトレーニングおよび予測フレームワークを提案する。
論文参考訳（メタデータ） (2022-09-30T04:03:40Z)
CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文参考訳（メタデータ） (2022-03-01T18:59:01Z)
SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文参考訳（メタデータ） (2021-12-09T03:27:00Z)
Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文参考訳（メタデータ） (2021-06-14T17:59:59Z)
PointINet: Point Cloud Frame Interpolation Network [9.626246913697427]
Point Cloud Frame Interpolationは、2つの連続したポイントクラウドフレームを付与し、中間フレームを生成します。提案手法に基づいて,低フレームレート点のクラウドストリームを高フレームレートにアップサンプリングすることができる。そこで本研究では,2つの点雲を同時に考慮した新しい学習型点融合モジュールを提案する。
論文参考訳（メタデータ） (2020-12-18T06:15:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。