論文の概要: RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2407.04689v1
- Date: Fri, 5 Jul 2024 17:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 12:31:56.260457
- Title: RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
- Title(参考訳): RAM: 汎用型ゼロショットロボットマニピュレーションのための検索ベースアフォーマンストランスファー
- Authors: Yuxuan Kuang, Junjie Ye, Haoran Geng, Jiageng Mao, Congyue Deng, Leonidas Guibas, He Wang, Yue Wang,
- Abstract要約: この研究は、RAMと呼ばれるゼロショットロボット操作のための検索・転送フレームワークを提案する。
RAMは、豊富なドメイン外データから多用途操作機能を取得するために、検索ベースの割当転送パラダイムを生かしている。
- 参考スコア(独自算出の注目度): 20.390835403527863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes a retrieve-and-transfer framework for zero-shot robotic manipulation, dubbed RAM, featuring generalizability across various objects, environments, and embodiments. Unlike existing approaches that learn manipulation from expensive in-domain demonstrations, RAM capitalizes on a retrieval-based affordance transfer paradigm to acquire versatile manipulation capabilities from abundant out-of-domain data. First, RAM extracts unified affordance at scale from diverse sources of demonstrations including robotic data, human-object interaction (HOI) data, and custom data to construct a comprehensive affordance memory. Then given a language instruction, RAM hierarchically retrieves the most similar demonstration from the affordance memory and transfers such out-of-domain 2D affordance to in-domain 3D executable affordance in a zero-shot and embodiment-agnostic manner. Extensive simulation and real-world evaluations demonstrate that our RAM consistently outperforms existing works in diverse daily tasks. Additionally, RAM shows significant potential for downstream applications such as automatic and efficient data collection, one-shot visual imitation, and LLM/VLM-integrated long-horizon manipulation. For more details, please check our website at https://yxkryptonite.github.io/RAM/.
- Abstract(参考訳): この研究は、RAMと呼ばれるゼロショットロボット操作のための検索と転送のためのフレームワークを提案し、様々なオブジェクト、環境、実施物にまたがる一般化性を備えている。
高価なドメイン内のデモから操作を学習する既存のアプローチとは異なり、RAMは、豊富なドメイン外のデータから汎用的な操作機能を取得するために、検索ベースのアベイランス転送パラダイムを生かしている。
第一に、RAMは、ロボットデータ、人間とオブジェクトの相互作用(HOI)データ、そして、包括的なアベイランスメモリを構築するためのカスタムデータなど、さまざまなデモソースから、大規模に統一されたアベイランスを抽出する。
そして、言語命令が与えられた後、RAMは、空きメモリから最もよく似たデモを階層的に取り出し、ドメイン外2Dの空きをゼロショット・エンボディ・非依存の方法で、ドメイン内3D実行可能空きに転送する。
大規模なシミュレーションと実世界の評価により、私たちのRAMは、日々のさまざまなタスクにおいて、既存の作業よりも一貫して優れています。
さらに、RAMは、自動的で効率的なデータ収集、ワンショットの視覚的模倣、LLM/VLM統合ロングホライゾン操作など、下流アプリケーションにとって大きな可能性を示している。
詳細については、https://yxkryptonite.github.io/RAM/を参照してください。
関連論文リスト
- DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation [24.95545399754476]
DynaMemは、ロボットの環境を表現するために動的ワークセマンティックメモリを使用する、オープンソースのモバイル操作に対する新しいアプローチである。
DynaMemの力で、私たちのロボットは、新しい環境を探索し、記憶にない物体を探し出し、オブジェクトが動いたり、現れたり、消えたりするにつれて、記憶を継続的に更新することができる。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [65.23793829741014]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、200以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Learning to Rank Graph-based Application Objects on Heterogeneous
Memories [0.0]
本稿では,アプリケーションの性能に最も影響を与えるアプリケーションオブジェクトを識別し,特徴付ける手法について述べる。
予測モデルを用いてデータ配置を行うことで,ベースラインのアプローチと比較して,実行時間の劣化を12% (平均) および30% (最大) 削減することができる。
論文 参考訳(メタデータ) (2022-11-04T00:20:31Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - PIM-DRAM:Accelerating Machine Learning Workloads using Processing in
Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。
提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。