論文の概要: ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
- arxiv url: http://arxiv.org/abs/2409.13682v1
- Date: Fri, 20 Sep 2024 17:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:57:35.363169
- Title: ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
- Title(参考訳): ReMEmbR:ロボットナビゲーションのための長距離時空間メモリの構築と推論
- Authors: Abrar Anwar, John Welsh, Joydeep Biswas, Soha Pouya, Yan Chang,
- Abstract要約: ロボットと対話する人々は、それがいつ起きたのか、どれくらい昔に起きたのかといった質問をしたいかもしれない。
本稿では,ロボットナビゲーションのための長時間ビデオ質問応答システムであるReMEmbRを紹介する。
我々の実験により、ReMEmbRはLLMとVLMのベースラインよりも優れており、低レイテンシで効率的な長距離推論を実現することができることが示された。
- 参考スコア(独自算出の注目度): 9.468486766002625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Navigating and understanding complex environments over extended periods of time is a significant challenge for robots. People interacting with the robot may want to ask questions like where something happened, when it occurred, or how long ago it took place, which would require the robot to reason over a long history of their deployment. To address this problem, we introduce a Retrieval-augmented Memory for Embodied Robots, or ReMEmbR, a system designed for long-horizon video question answering for robot navigation. To evaluate ReMEmbR, we introduce the NaVQA dataset where we annotate spatial, temporal, and descriptive questions to long-horizon robot navigation videos. ReMEmbR employs a structured approach involving a memory building and a querying phase, leveraging temporal information, spatial information, and images to efficiently handle continuously growing robot histories. Our experiments demonstrate that ReMEmbR outperforms LLM and VLM baselines, allowing ReMEmbR to achieve effective long-horizon reasoning with low latency. Additionally, we deploy ReMEmbR on a robot and show that our approach can handle diverse queries. The dataset, code, videos, and other material can be found at the following link: https://nvidia-ai-iot.github.io/remembr
- Abstract(参考訳): 長い時間にわたって複雑な環境をナビゲートし理解することは、ロボットにとって重要な課題である。
ロボットと対話する人々は、何が起きたのか、いつ起きたのか、どれくらい前に起きたのかといった質問をしたいかもしれない。
この問題を解決するために,ロボットナビゲーションのための長距離ビデオ質問応答システムReMEmbRを導入する。
ReMEmbRを評価するために,長距離ロボットナビゲーションビデオに空間的,時間的,記述的な質問を注釈付けするNaVQAデータセットを導入する。
ReMEmbRは、時間情報、空間情報、画像を利用して、連続的に成長するロボットの履歴を効率的に扱う、メモリビルディングとクエリフェーズを含む構造化されたアプローチを採用している。
我々の実験により、ReMEmbRはLLMとVLMのベースラインよりも優れており、低レイテンシで効率的な長距離推論を実現することができることが示された。
さらに、ロボットにReMEmbRをデプロイし、アプローチが多様なクエリを処理可能であることを示す。
データセット、コード、ビデオ、その他の資料は以下のリンクで見ることができる。
関連論文リスト
- Episodic Memory Verbalization using Hierarchical Representations of Life-Long Robot Experience [12.9617156851956]
本研究では,大規模な事前学習モデルを用いて,エピソードデータの短い(数分間の)ストリームを音声化する。
樹状データ構造をエピソードメモリ(EM)から導出し,その低レベルは生の知覚と固有受容のデータを表す。
シミュレーションされた家庭用ロボットデータ,人間中心ビデオ,実世界のロボット記録について評価を行った。
論文 参考訳(メタデータ) (2024-09-26T10:16:08Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Explore until Confident: Efficient Exploration for Embodied Question Answering [32.27111287314288]
我々は、大きな視覚言語モデルの強力な意味推論機能を活用して、質問を効率的に探索し、答える。
深度情報とVLMの視覚的プロンプトに基づいて,まずシーンのセマンティックマップを構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問を校正し、いつ探索を中止するかをロボットが知ることができるようにする。
論文 参考訳(メタデータ) (2024-03-23T22:04:03Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - HomeRobot: Open-Vocabulary Mobile Manipulation [107.05702777141178]
Open-Vocabulary Mobile Manipulation (OVMM) は、目に見えない環境で任意のオブジェクトを選択し、命令された場所に配置する問題である。
HomeRobotには2つのコンポーネントがある。シミュレーションコンポーネントは、新しい高品質のマルチルームホーム環境に、大規模で多様なキュレートされたオブジェクトセットを使用する。
論文 参考訳(メタデータ) (2023-06-20T14:30:32Z) - FusionLoc: Camera-2D LiDAR Fusion Using Multi-Head Self-Attention for
End-to-End Serving Robot Relocalization [1.9766522384767222]
我々は、この問題に対処するために、サービスロボットをエンドツーエンドで再ローカライズすることに注力する。
ニューラルネットワークを用いて、搭載されているセンサーデータから直接ロボットのポーズを予測する。
提案手法では,2つのセンサが捉えた様々な種類の情報を補完し,ロボットのポーズを復元する。
論文 参考訳(メタデータ) (2023-03-13T05:46:21Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - Fleet-DAgger: Interactive Robot Fleet Learning with Scalable Human
Supervision [72.4735163268491]
ロボットの商業的および産業的な展開は、実行中にリモートの人間のテレオペレーターにフォールバックすることが多い。
我々は対話型フリートラーニング(Interactive Fleet Learning, IFL)の設定を定式化し、複数のロボットが対話型クエリを行い、複数の人間スーパーバイザーから学習する。
IFLアルゴリズムのファミリーであるFleet-DAggerを提案し、新しいFleet-DAggerアルゴリズムをシミュレーションで4つのベースラインと比較する。
論文 参考訳(メタデータ) (2022-06-29T01:23:57Z) - Reasoning with Scene Graphs for Robot Planning under Partial
Observability [7.121002367542985]
我々は,ロボットが視覚的文脈情報で推論できるロボット計画のためのシーン解析アルゴリズムを開発した。
シミュレーションで複数の3D環境と実際のロボットが収集したデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-02-21T18:45:56Z) - Single-view robot pose and joint angle estimation via render & compare [40.05546237998603]
本稿では,1枚のRGB画像から関節角度と6Dカメラとロボットのポーズを推定する手法であるRoboPoseを紹介する。
これは、モバイルおよび反復型自律システムに他のロボットと対話する能力を与える上で、重要な問題である。
論文 参考訳(メタデータ) (2021-04-19T14:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。