論文の概要: What's the Move? Hybrid Imitation Learning via Salient Points
- arxiv url: http://arxiv.org/abs/2412.05426v1
- Date: Fri, 06 Dec 2024 21:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:53.549521
- Title: What's the Move? Hybrid Imitation Learning via Salient Points
- Title(参考訳): 移動とは何か? : 健全な点を通したハイブリッド模倣学習
- Authors: Priya Sundaresan, Hengyuan Hu, Quan Vuong, Jeannette Bohg, Dorsa Sadigh,
- Abstract要約: 視覚的・空間的なバリエーションをまたいだ一般化を学習するフレキシブルな模倣学習ポリシーを導入する。
Sphinx: 健全なポイントベースのハイブリッドImitatioNとeXecutionは、ポイントクラウド内のタスク関連ポイントを推測することを学びます。
実世界の4つのタスクとシミュレーションされた2つのタスクで86.7%の成功を達成し、次の最高のILベースラインを平均41.1%上回った。
- 参考スコア(独自算出の注目度): 44.89472359192686
- License:
- Abstract: While imitation learning (IL) offers a promising framework for teaching robots various behaviors, learning complex tasks remains challenging. Existing IL policies struggle to generalize effectively across visual and spatial variations even for simple tasks. In this work, we introduce SPHINX: Salient Point-based Hybrid ImitatioN and eXecution, a flexible IL policy that leverages multimodal observations (point clouds and wrist images), along with a hybrid action space of low-frequency, sparse waypoints and high-frequency, dense end effector movements. Given 3D point cloud observations, SPHINX learns to infer task-relevant points within a point cloud, or salient points, which support spatial generalization by focusing on semantically meaningful features. These salient points serve as anchor points to predict waypoints for long-range movement, such as reaching target poses in free-space. Once near a salient point, SPHINX learns to switch to predicting dense end-effector movements given close-up wrist images for precise phases of a task. By exploiting the strengths of different input modalities and action representations for different manipulation phases, SPHINX tackles complex tasks in a sample-efficient, generalizable manner. Our method achieves 86.7% success across 4 real-world and 2 simulated tasks, outperforming the next best state-of-the-art IL baseline by 41.1% on average across 440 real world trials. SPHINX additionally generalizes to novel viewpoints, visual distractors, spatial arrangements, and execution speeds with a 1.7x speedup over the most competitive baseline. Our website (http://sphinx-manip.github.io) provides open-sourced code for data collection, training, and evaluation, along with supplementary videos.
- Abstract(参考訳): 模倣学習(IL)はロボットに様々な行動を教えるための有望な枠組みを提供するが、複雑なタスクを学ぶことは依然として難しい。
既存のILポリシーは、単純なタスクであっても視覚的および空間的なバリエーションを効果的に一般化するのに苦労する。
本研究は、SPHINX: Salient Point-based Hybrid ImitatioN and eXecutionを紹介する。これは、マルチモーダル観測(点雲と手首画像)を活用する柔軟なILポリシーであり、低周波、スパースウェイポイント、高周波、高密度エンドエフェクタ運動のハイブリッドアクション空間である。
SPHINXは3次元の点雲の観測から、意味論的に意味のある特徴に焦点をあてることで空間的一般化を支援する、点雲内のタスク関連点、あるいは有能な点を推測することを学ぶ。
これらのサリアンポイントは、自由空間におけるターゲットポーズに到達するなど、長距離移動の経路ポイントを予測するためのアンカーポイントとして機能する。
正解点に近づくと、SPHINXはタスクの正確なフェーズのためにクローズアップされた手首画像に与えられた密集したエンドエフェクターの動きを予測するように切り替えることを学ぶ。
SPHINXは、異なる操作フェーズにおける異なる入力モードとアクション表現の強みを利用して、サンプル効率、一般化可能な方法で複雑なタスクに取り組む。
本手法は4つの実世界と2つの模擬タスクで86.7%の成功を達成し、440の実世界の試験において、次の最高のILベースラインを平均41.1%上回った。
SPHINXは、新しい視点、視覚障害、空間配置、実行速度を最も競争力のあるベースライン上で1.7倍のスピードアップで一般化する。
私たちのWebサイト(http://sphinx-manip.github.io)は、データ収集、トレーニング、評価のためのオープンソースコードと、補足的なビデオを提供します。
関連論文リスト
- MultiPull: Detailing Signed Distance Functions by Pulling Multi-Level Queries at Multi-Step [48.812388649469106]
粗いSDFを粗い値から細かい値に最適化することにより,原点雲から多スケール暗黙フィールドを学習する手法を提案する。
広く使われているオブジェクトとシーンのベンチマーク実験により,この手法は表面再構成における最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-02T10:50:22Z) - GEARS: Local Geometry-aware Hand-object Interaction Synthesis [38.75942505771009]
本研究では, 相互作用領域近傍の局所物体形状を推定するための, 結合中心型センサを提案する。
学習の複雑さを軽減するための重要なステップとして、グローバルフレームからテンプレートハンドフレームにポイントを変換し、共有モジュールを使用して各関節のセンサ特徴を処理する。
これに続いて、異なる次元の関節間の相関を捉えることを目的とした知覚時間変換ネットワークが提供される。
論文 参考訳(メタデータ) (2024-04-02T09:18:52Z) - Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning [58.69297999175239]
ロボット学習においては、異なるモードの異なる特徴のために観察空間が不可欠である。
本研究では,RGB, RGB-D, 点雲の3つのモードに着目し, 様々な観測空間がロボット学習に与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-04T14:18:45Z) - PointHPS: Cascaded 3D Human Pose and Shape Estimation from Point Clouds [99.60575439926963]
本稿では,実環境で捉えた点雲から正確な3次元HPSを実現するための基本的フレームワークであるPointHPSを提案する。
PointHPSは、カスケードアーキテクチャを通じてポイント機能を反復的に洗練する。
広範囲な実験により、ポイントHPSは強力な特徴抽出と処理方式を持ち、State-of-the-Art法より優れていることが示された。
論文 参考訳(メタデータ) (2023-08-28T11:10:14Z) - Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking [51.16677396148247]
Multi-Object Tracking (MOT) は、望まれるすべてのオブジェクトをフレーム間で検出し、関連付けることを目的としている。
本稿では,MOTにおけるこの長期的課題を,弱い手がかりを取り入れることで,効果的かつ効果的に解決できることを実証する。
提案手法は,MOT17,MOT20,特にDanceTrackなど,様々なベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-01T18:53:24Z) - HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation [29.01984677695523]
本稿では6次元非包括的操作のための強化学習手法であるHybrid Actor-Critic Maps for Manipulation (HACMan)を紹介する。
シミュレーションおよび実世界における6次元オブジェクトポーズアライメントタスクにおけるHACManの評価を行った。
代替アクション表現と比較して、HACManは最高のベースラインの3倍以上の成功率を達成する。
論文 参考訳(メタデータ) (2023-05-06T05:55:27Z) - UniDexGrasp: Universal Robotic Dexterous Grasping via Learning Diverse
Proposal Generation and Goal-Conditioned Policy [23.362000826018612]
本研究では, テーブルトップ環境下での点雲観測から, 汎用ロボットデキスタラスの把握を学習する問題に対処する。
並列グリップパーグリップで成功したパイプラインにインスパイアされ、タスクを1)提案(目的)生成と2)目標条件のグリップ実行の2つのステージに分割した。
最終的なパイプラインは、数千のオブジェクトインスタンスに対して平均60%以上の成功率を示すことで、デクスタラスな把握のための普遍的な一般化を実現した最初のものになります。
論文 参考訳(メタデータ) (2023-03-02T03:23:18Z) - PointSmile: Point Self-supervised Learning via Curriculum Mutual
Information [33.74200235365997]
本稿では,クラウドオブジェクトの複製にまたがるカリキュラム相互情報(CMI)を最大化することで,再構成不要な自己教師型学習パラダイムを提案する。
PointSmileは、簡単なカリキュラムから始まり、そのカリキュラムの難しさを徐々に増す、人間のカリキュラム学習を模倣するように設計されている。
我々は、オブジェクト分類やセグメンテーションを含む下流タスクにおけるPointSmileの有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-01-30T09:18:54Z) - Self-Supervised Arbitrary-Scale Point Clouds Upsampling via Implicit
Neural Representation [79.60988242843437]
そこで本研究では,自己監督型および倍率フレキシブルな点雲を同時にアップサンプリングする手法を提案する。
実験結果から, 自己教師あり学習に基づく手法は, 教師あり学習に基づく手法よりも, 競争力や性能が向上することが示された。
論文 参考訳(メタデータ) (2022-04-18T07:18:25Z) - Glance and Gaze: Inferring Action-aware Points for One-Stage
Human-Object Interaction Detection [81.32280287658486]
Glance and Gaze Network(GGNet)と呼ばれる新しいワンステージ手法を提案する。
GGNetは、一組のアクションウェアポイント(ActPoints)を目視および視線ステップで適応的にモデル化する。
検出された各インタラクションと関連する人間と対象のペアを効果的に一致させるアクションアウェア・アプローチを設計します。
論文 参考訳(メタデータ) (2021-04-12T08:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。