論文の概要: SPA: 3D Spatial-Awareness Enables Effective Embodied Representation
- arxiv url: http://arxiv.org/abs/2410.08208v1
- Date: Fri, 11 Oct 2024 08:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 04:46:03.667617
- Title: SPA: 3D Spatial-Awareness Enables Effective Embodied Representation
- Title(参考訳): SPA: 効果的な身体表現を可能にする3次元空間認識
- Authors: Haoyi Zhu, Honghui Yang, Yating Wang, Jiange Yang, Limin Wang, Tong He,
- Abstract要約: 具体的AIにおける3次元空間認識の重要性を強調する新しい表現学習フレームワークであるSPAを紹介する。
本研究では,8つのシミュレータにまたがる268のタスクを網羅し,これまでで最も包括的な表現学習の評価を行った。
- 参考スコア(独自算出の注目度): 20.123243422061048
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we introduce SPA, a novel representation learning framework that emphasizes the importance of 3D spatial awareness in embodied AI. Our approach leverages differentiable neural rendering on multi-view images to endow a vanilla Vision Transformer (ViT) with intrinsic spatial understanding. We present the most comprehensive evaluation of embodied representation learning to date, covering 268 tasks across 8 simulators with diverse policies in both single-task and language-conditioned multi-task scenarios. The results are compelling: SPA consistently outperforms more than 10 state-of-the-art representation methods, including those specifically designed for embodied AI, vision-centric tasks, and multi-modal applications, while using less training data. Furthermore, we conduct a series of real-world experiments to confirm its effectiveness in practical scenarios. These results highlight the critical role of 3D spatial awareness for embodied representation learning. Our strongest model takes more than 6000 GPU hours to train and we are committed to open-sourcing all code and model weights to foster future research in embodied representation learning. Project Page: https://haoyizhu.github.io/spa/.
- Abstract(参考訳): 本稿では,具体的AIにおける3次元空間認識の重要性を強調する表現学習フレームワークであるSPAを紹介する。
提案手法は,多視点画像上での識別可能なニューラルレンダリングを利用して,固有空間理解を備えたバニラビジョントランス (ViT) を実現する。
本稿では,8つのシミュレータにまたがる268のタスクを,単一タスクおよび言語条件のマルチタスクシナリオにおいて多種多様なポリシーでカバーし,これまでに最も包括的な表現学習の評価を行った。
SPAは、AI、ビジョン中心のタスク、マルチモーダルアプリケーションに特化して設計されたものを含む、10以上の最先端表現メソッドを一貫して上回り、トレーニングデータが少ない。
さらに,実際のシナリオにおいて実世界の実験を行い,その有効性を確認する。
これらの結果は,表現学習における3次元空間認識の重要性を浮き彫りにした。
私たちの最強のモデルは、トレーニングに6000時間以上を要し、すべてのコードとモデルの重みをオープンソースにして、具体的表現学習における将来の研究を促進することにコミットしています。
プロジェクトページ: https://haoyizhu.github.io/spa/。
関連論文リスト
- Learning Generalizable 3D Manipulation With 10 Demonstrations [16.502781729164973]
10個のデモから操作スキルを学習する新しいフレームワークを提案する。
シミュレーションベンチマークと実世界のロボットシステムの両方に関する広範な実験を通じて、我々のフレームワークを検証する。
この研究は、現実世界のアプリケーションにおいて、効率的で一般化可能な操作スキル学習を前進させる大きな可能性を示している。
論文 参考訳(メタデータ) (2024-11-15T14:01:02Z) - Part-Guided 3D RL for Sim2Real Articulated Object Manipulation [27.422878372169805]
実演を伴わずに調音物体の操作を学習できる部分誘導型3D RLフレームワークを提案する。
2次元分割と3次元RLの長所を組み合わせることにより,RL政策訓練の効率化を図る。
一つの汎用的なRLポリシーは、シミュレーション中に複数のオブジェクト操作タスクを同時にトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-26T10:18:17Z) - DNAct: Diffusion Guided Multi-Task 3D Policy Learning [17.566655138104785]
DNActは言語条件のマルチタスクポリシーフレームワークである。
ニューラルネットワークによる事前トレーニングと拡散トレーニングを統合し、アクションシーケンス空間におけるマルチモーダル学習を強制する。
論文 参考訳(メタデータ) (2024-03-07T00:09:07Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文 参考訳(メタデータ) (2023-11-02T01:33:00Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Semantic Exploration from Language Abstractions and Pretrained
Representations [23.02024937564099]
効果的な探究は強化学習(RL)の課題である
意味論的に意味のある状態抽象化を用いて新規性を定義する。
自然画像キャプションデータセットに基づく視覚言語表現の評価を行った。
論文 参考訳(メタデータ) (2022-04-08T17:08:00Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。