Fugu-MT 論文翻訳(概要): RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation

論文の概要: RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation

arxiv url: http://arxiv.org/abs/2407.04689v1
Date: Fri, 5 Jul 2024 17:50:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 12:31:56.260457
Title: RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
Title（参考訳）: RAM: 汎用型ゼロショットロボットマニピュレーションのための検索ベースアフォーマンストランスファー
Authors: Yuxuan Kuang, Junjie Ye, Haoran Geng, Jiageng Mao, Congyue Deng, Leonidas Guibas, He Wang, Yue Wang,
Abstract要約: この研究は、RAMと呼ばれるゼロショットロボット操作のための検索・転送フレームワークを提案する。 RAMは、豊富なドメイン外データから多用途操作機能を取得するために、検索ベースの割当転送パラダイムを生かしている。
参考スコア（独自算出の注目度）: 20.390835403527863
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work proposes a retrieve-and-transfer framework for zero-shot robotic manipulation, dubbed RAM, featuring generalizability across various objects, environments, and embodiments. Unlike existing approaches that learn manipulation from expensive in-domain demonstrations, RAM capitalizes on a retrieval-based affordance transfer paradigm to acquire versatile manipulation capabilities from abundant out-of-domain data. First, RAM extracts unified affordance at scale from diverse sources of demonstrations including robotic data, human-object interaction (HOI) data, and custom data to construct a comprehensive affordance memory. Then given a language instruction, RAM hierarchically retrieves the most similar demonstration from the affordance memory and transfers such out-of-domain 2D affordance to in-domain 3D executable affordance in a zero-shot and embodiment-agnostic manner. Extensive simulation and real-world evaluations demonstrate that our RAM consistently outperforms existing works in diverse daily tasks. Additionally, RAM shows significant potential for downstream applications such as automatic and efficient data collection, one-shot visual imitation, and LLM/VLM-integrated long-horizon manipulation. For more details, please check our website at https://yxkryptonite.github.io/RAM/.
Abstract（参考訳）: この研究は、RAMと呼ばれるゼロショットロボット操作のための検索と転送のためのフレームワークを提案し、様々なオブジェクト、環境、実施物にまたがる一般化性を備えている。高価なドメイン内のデモから操作を学習する既存のアプローチとは異なり、RAMは、豊富なドメイン外のデータから汎用的な操作機能を取得するために、検索ベースのアベイランス転送パラダイムを生かしている。第一に、RAMは、ロボットデータ、人間とオブジェクトの相互作用(HOI)データ、そして、包括的なアベイランスメモリを構築するためのカスタムデータなど、さまざまなデモソースから、大規模に統一されたアベイランスを抽出する。そして、言語命令が与えられた後、RAMは、空きメモリから最もよく似たデモを階層的に取り出し、ドメイン外2Dの空きをゼロショット・エンボディ・非依存の方法で、ドメイン内3D実行可能空きに転送する。大規模なシミュレーションと実世界の評価により、私たちのRAMは、日々のさまざまなタスクにおいて、既存の作業よりも一貫して優れています。さらに、RAMは、自動的で効率的なデータ収集、ワンショットの視覚的模倣、LLM/VLM統合ロングホライゾン操作など、下流アプリケーションにとって大きな可能性を示している。詳細については、https://yxkryptonite.github.io/RAM/を参照してください。

関連論文リスト

RoboPearls: Editable Video Simulation for Robot Manipulation [81.18434338506621]
RoboPearlsは、ロボット操作のための編集可能なビデオシミュレーションフレームワークである。 3D Gaussian Splatting (3DGS)に基づいて構築されたRoboPearlsは、フォトリアリスティックでビュー一貫性のあるシミュレーションの構築を可能にする。我々は、RLBench、COLOSSEUM、Ego4D、Open X-Embodiment、現実世界のロボットなど、複数のデータセットやシーンで広範な実験を行う。
論文参考訳（メタデータ） (2025-06-28T05:03:31Z)
RT-cache: Efficient Robot Trajectory Retrieval System [9.312155153982982]
本稿では,実世界のロボット推論を高速化する新しいトラジェクトリメモリパイプラインRT-cacheを紹介する。 RT-cacheは、以前成功したロボット軌道の大規模なメモリを格納し、関連するマルチステップモーションスニペットを取得する。 Open-X Embodimentデータセットやその他の実世界のデータによる実験は、RT-cacheが検索を欠いたベースラインよりも速く、よりうまくタスクを完了していることを示している。
論文参考訳（メタデータ） (2025-05-14T00:41:44Z)
R$^3$Mem: Bridging Memory Retention and Retrieval via Reversible Compression [24.825945729508682]
情報保持と検索の両方を最適化するメモリネットワークであるR$3$Memを提案する。 R$3$Memは、仮想メモリトークンを使用して無限に長い履歴を圧縮およびエンコードし、階層的な圧縮戦略によってさらに強化される。実験により,長文言語モデリングおよび検索強化生成タスクにおいて,メモリ設計が最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-02-21T21:39:00Z)
Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning [41.94295877935867]
メモリRLの総合ベンチマークであるMIKASA(Memory-Intensive Skills Assessment Suite for Agents)を紹介する。また、テーブルトップロボット操作におけるメモリ能力を評価するために、32個のメモリ集約タスクを慎重に設計したベンチマークであるMIKASA-Roboを開発した。我々のコントリビューションは、メモリRL研究を進めるための統一的なフレームワークを確立し、現実のアプリケーションのためのより信頼性の高いシステムの開発を推進します。
論文参考訳（メタデータ） (2025-02-14T20:46:19Z)
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-08T07:50:22Z)
DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation [24.95545399754476]
DynaMemは、ロボットの環境を表現するために動的ワークセマンティックメモリを使用する、オープンソースのモバイル操作に対する新しいアプローチである。 DynaMemの力で、私たちのロボットは、新しい環境を探索し、記憶にない物体を探し出し、オブジェクトが動いたり、現れたり、消えたりするにつれて、記憶を継続的に更新することができる。
論文参考訳（メタデータ） (2024-11-07T18:59:27Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [65.23793829741014]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。 Embodied-RAGがRAGをロボット領域に効果的にブリッジし、200以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文参考訳（メタデータ） (2024-09-26T21:44:11Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。 LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
Learning to Rank Graph-based Application Objects on Heterogeneous Memories [0.0]
本稿では,アプリケーションの性能に最も影響を与えるアプリケーションオブジェクトを識別し,特徴付ける手法について述べる。予測モデルを用いてデータ配置を行うことで,ベースラインのアプローチと比較して,実行時間の劣化を12% (平均) および30% (最大) 削減することができる。
論文参考訳（メタデータ） (2022-11-04T00:20:31Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)
PIM-DRAM:Accelerating Machine Learning Workloads using Processing in Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文参考訳（メタデータ） (2021-05-08T16:39:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。