論文の概要: Coarse-to-Fine 3D Keyframe Transporter
- arxiv url: http://arxiv.org/abs/2502.01773v1
- Date: Mon, 03 Feb 2025 19:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:56:44.660518
- Title: Coarse-to-Fine 3D Keyframe Transporter
- Title(参考訳): 粗3次元キーフレームトランスポーター
- Authors: Xupeng Zhu, David Klee, Dian Wang, Boce Hu, Haojie Huang, Arsh Tangri, Robin Walters, Robert Platt,
- Abstract要約: Keyframe Imitation Learning (IL)は、学習ベースのエージェントが様々な操作タスクを解くことを可能にする。
この研究は、キーフレームIL内の二変量対称性を特定し、グリップによって把握されるワークスペースとオブジェクトの両方の変換を一般化するポリシーを設計する。
- 参考スコア(独自算出の注目度): 18.75662627062738
- License:
- Abstract: Recent advances in Keyframe Imitation Learning (IL) have enabled learning-based agents to solve a diverse range of manipulation tasks. However, most approaches ignore the rich symmetries in the problem setting and, as a consequence, are sample-inefficient. This work identifies and utilizes the bi-equivariant symmetry within Keyframe IL to design a policy that generalizes to transformations of both the workspace and the objects grasped by the gripper. We make two main contributions: First, we analyze the bi-equivariance properties of the keyframe action scheme and propose a Keyframe Transporter derived from the Transporter Networks, which evaluates actions using cross-correlation between the features of the grasped object and the features of the scene. Second, we propose a computationally efficient coarse-to-fine SE(3) action evaluation scheme for reasoning the intertwined translation and rotation action. The resulting method outperforms strong Keyframe IL baselines by an average of >10% on a wide range of simulation tasks, and by an average of 55% in 4 physical experiments.
- Abstract(参考訳): キーフレーム・イミテーション・ラーニング(IL)の最近の進歩により、学習ベースエージェントは多様な操作タスクを解くことができるようになった。
しかし、ほとんどのアプローチは問題設定における豊富な対称性を無視し、結果としてサンプル非効率である。
この研究は、キーフレームIL内の二変量対称性を特定し、グリップによって把握されるワークスペースとオブジェクトの両方の変換を一般化するポリシーを設計する。
まず、キーフレームアクションスキームのバイ平等性を解析し、トランスポーターネットワークから派生したキーフレームトランスポーターを提案する。
第2に,相互変換と回転動作の推論のための計算効率の良い粗いSE(3)動作評価手法を提案する。
その結果、キーフレームのILベースラインは、広範囲のシミュレーションタスクで平均10%、物理実験で平均55%向上した。
関連論文リスト
- EVA-S2PLoR: A Secure Element-wise Multiplication Meets Logistic Regression on Heterogeneous Database [2.1010315462623184]
本稿では, 効率よく, 検証し, 正確な2次元ロジスティック回帰フレームワーク(EVA-S2PLoR)を提案する。
我々のフレームワークは、主にセキュアな2次元ベクトル要素ワイド乗算と、データディスガージング技術に基づく乗算、相反関数、シグモイド関数を含む。
論文 参考訳(メタデータ) (2025-01-09T13:19:59Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion [80.79938369319152]
我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。
私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T16:06:59Z) - SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。
提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。
次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文 参考訳(メタデータ) (2024-04-19T04:51:18Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Continuous Intermediate Token Learning with Implicit Motion Manifold for
Keyframe Based Motion Interpolation [20.314332409748637]
精度に基づく制約で潜在動作を定式化するための新しい枠組みを提案する。
提案手法は,地上の真理運動に優れたデータセットの精度と高い視覚的類似性を実証する。
論文 参考訳(メタデータ) (2023-03-27T05:53:01Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - CAE-LO: LiDAR Odometry Leveraging Fully Unsupervised Convolutional
Auto-Encoder for Interest Point Detection and Feature Description [10.73965992177754]
2D CAEを用いた球面リングデータから利得点を検出し、3D CAEを用いたマルチレゾリューションボクセルモデルから特徴点を抽出する、完全に教師なしコナールオートエンコーダベースのLiDARオドメトリー(CAE-LO)を提案する。
1)KITTIデータセットに基づく実験により、未構造化シナリオにおける一致の成功率を改善するために、より局所的な詳細を抽出できることが示され、我々の特徴は、マッチング不整合比で50%以上、最先端の成果を上げている。
論文 参考訳(メタデータ) (2020-01-06T01:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。