論文の概要: RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2407.04689v1
- Date: Fri, 5 Jul 2024 17:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 12:31:56.260457
- Title: RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
- Title(参考訳): RAM: 汎用型ゼロショットロボットマニピュレーションのための検索ベースアフォーマンストランスファー
- Authors: Yuxuan Kuang, Junjie Ye, Haoran Geng, Jiageng Mao, Congyue Deng, Leonidas Guibas, He Wang, Yue Wang,
- Abstract要約: この研究は、RAMと呼ばれるゼロショットロボット操作のための検索・転送フレームワークを提案する。
RAMは、豊富なドメイン外データから多用途操作機能を取得するために、検索ベースの割当転送パラダイムを生かしている。
- 参考スコア(独自算出の注目度): 20.390835403527863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes a retrieve-and-transfer framework for zero-shot robotic manipulation, dubbed RAM, featuring generalizability across various objects, environments, and embodiments. Unlike existing approaches that learn manipulation from expensive in-domain demonstrations, RAM capitalizes on a retrieval-based affordance transfer paradigm to acquire versatile manipulation capabilities from abundant out-of-domain data. First, RAM extracts unified affordance at scale from diverse sources of demonstrations including robotic data, human-object interaction (HOI) data, and custom data to construct a comprehensive affordance memory. Then given a language instruction, RAM hierarchically retrieves the most similar demonstration from the affordance memory and transfers such out-of-domain 2D affordance to in-domain 3D executable affordance in a zero-shot and embodiment-agnostic manner. Extensive simulation and real-world evaluations demonstrate that our RAM consistently outperforms existing works in diverse daily tasks. Additionally, RAM shows significant potential for downstream applications such as automatic and efficient data collection, one-shot visual imitation, and LLM/VLM-integrated long-horizon manipulation. For more details, please check our website at https://yxkryptonite.github.io/RAM/.
- Abstract(参考訳): この研究は、RAMと呼ばれるゼロショットロボット操作のための検索と転送のためのフレームワークを提案し、様々なオブジェクト、環境、実施物にまたがる一般化性を備えている。
高価なドメイン内のデモから操作を学習する既存のアプローチとは異なり、RAMは、豊富なドメイン外のデータから汎用的な操作機能を取得するために、検索ベースのアベイランス転送パラダイムを生かしている。
第一に、RAMは、ロボットデータ、人間とオブジェクトの相互作用(HOI)データ、そして、包括的なアベイランスメモリを構築するためのカスタムデータなど、さまざまなデモソースから、大規模に統一されたアベイランスを抽出する。
そして、言語命令が与えられた後、RAMは、空きメモリから最もよく似たデモを階層的に取り出し、ドメイン外2Dの空きをゼロショット・エンボディ・非依存の方法で、ドメイン内3D実行可能空きに転送する。
大規模なシミュレーションと実世界の評価により、私たちのRAMは、日々のさまざまなタスクにおいて、既存の作業よりも一貫して優れています。
さらに、RAMは、自動的で効率的なデータ収集、ワンショットの視覚的模倣、LLM/VLM統合ロングホライゾン操作など、下流アプリケーションにとって大きな可能性を示している。
詳細については、https://yxkryptonite.github.io/RAM/を参照してください。
関連論文リスト
- Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning [41.94295877935867]
メモリRLの総合ベンチマークであるMIKASA(Memory-Intensive Skills Assessment Suite for Agents)を紹介する。
また、テーブルトップロボット操作におけるメモリ能力を評価するために、32個のメモリ集約タスクを慎重に設計したベンチマークであるMIKASA-Roboを開発した。
我々のコントリビューションは、メモリRL研究を進めるための統一的なフレームワークを確立し、現実のアプリケーションのためのより信頼性の高いシステムの開発を推進します。
論文 参考訳(メタデータ) (2025-02-14T20:46:19Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation [24.95545399754476]
DynaMemは、ロボットの環境を表現するために動的ワークセマンティックメモリを使用する、オープンソースのモバイル操作に対する新しいアプローチである。
DynaMemの力で、私たちのロボットは、新しい環境を探索し、記憶にない物体を探し出し、オブジェクトが動いたり、現れたり、消えたりするにつれて、記憶を継続的に更新することができる。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Learning to Rank Graph-based Application Objects on Heterogeneous
Memories [0.0]
本稿では,アプリケーションの性能に最も影響を与えるアプリケーションオブジェクトを識別し,特徴付ける手法について述べる。
予測モデルを用いてデータ配置を行うことで,ベースラインのアプローチと比較して,実行時間の劣化を12% (平均) および30% (最大) 削減することができる。
論文 参考訳(メタデータ) (2022-11-04T00:20:31Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - PIM-DRAM:Accelerating Machine Learning Workloads using Processing in
Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。
提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。