論文の概要: BUMBLE: Unifying Reasoning and Acting with Vision-Language Models for Building-wide Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2410.06237v1
- Date: Tue, 8 Oct 2024 17:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:31:16.252379
- Title: BUMBLE: Unifying Reasoning and Acting with Vision-Language Models for Building-wide Mobile Manipulation
- Title(参考訳): BUMBLE:ビルワイド移動操作のための視覚言語モデルによる推論と動作の統合
- Authors: Rutav Shah, Albert Yu, Yifeng Zhu, Yuke Zhu, Roberto Martín-Martín,
- Abstract要約: 本稿では,オープンワールドなRGBD認識,広帯域の極小運動技術,二重層メモリを統合した統合ビジョン・ランゲージ・モデル(VLM)ベースのフレームワークであるBUMBLEを紹介する。
BUMBLEは、異なる部屋やフロアから70以上の試験、タスク、シーンレイアウトを平均47.1%の成功率で達成している。
- 参考スコア(独自算出の注目度): 36.21945470191491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To operate at a building scale, service robots must perform very long-horizon mobile manipulation tasks by navigating to different rooms, accessing different floors, and interacting with a wide and unseen range of everyday objects. We refer to these tasks as Building-wide Mobile Manipulation. To tackle these inherently long-horizon tasks, we introduce BUMBLE, a unified Vision-Language Model (VLM)-based framework integrating open-world RGBD perception, a wide spectrum of gross-to-fine motor skills, and dual-layered memory. Our extensive evaluation (90+ hours) indicates that BUMBLE outperforms multiple baselines in long-horizon building-wide tasks that require sequencing up to 12 ground truth skills spanning 15 minutes per trial. BUMBLE achieves 47.1% success rate averaged over 70 trials in different buildings, tasks, and scene layouts from different starting rooms and floors. Our user study demonstrates 22% higher satisfaction with our method than state-of-the-art mobile manipulation methods. Finally, we demonstrate the potential of using increasingly-capable foundation models to push performance further. For more information, see https://robin-lab.cs.utexas.edu/BUMBLE/
- Abstract(参考訳): 建設規模で運用するには、サービスロボットは、異なる部屋をナビゲートし、異なるフロアにアクセスし、広範囲で目に見えない日常的なオブジェクトと対話することによって、非常に長い水平移動操作タスクを実行する必要がある。
これらのタスクをビルワイド・モバイル・マニピュレーションと呼ぶ。
このような長期的課題に対処するために,オープンワールドなRGBD認識を統合した統合ビジョン・ランゲージ・モデル(VLM)ベースのフレームワークであるBUMBLEを導入する。
広汎な評価 (90時間以上) により, BUMBLE は, 1回の試行15分にわたる12の真理スキルのシークエンシングを必要とする, 長期にわたるビルディングワイドタスクにおいて, 複数のベースラインに優れていたことが示唆された。
BUMBLEは、異なる部屋やフロアから70以上の試験、タスク、シーンレイアウトを平均47.1%の成功率で達成している。
ユーザスタディでは,最先端のモバイル操作方法よりも22%高い満足度を示した。
最後に、パフォーマンスをさらに向上させるために、機能強化可能な基盤モデルを使用することの可能性を示す。
詳細はhttps://robin-lab.cs.utexas.edu/BUMBLE/を参照のこと。
関連論文リスト
- SLIM: Sim-to-Real Legged Instructive Manipulation via Long-Horizon Visuomotor Learning [20.33419404756149]
本稿では,シミュレーションで純粋に強化学習によって訓練された実世界の課題を,低コストで解決するモバイル操作システムを提案する。
単一のポリシーは、検索、移動、把握、輸送、降下を含む長期的タスクを自律的に解決し、80%近い現実世界の成功を達成します。
この性能は、ロボットがより効率的であり、遠隔操作の約1.5倍の速度で動作しているのに対して、同じタスクにおける専門家の遠隔操作に匹敵する。
論文 参考訳(メタデータ) (2025-01-17T01:32:18Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking [54.776890150458385]
マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。
私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。
平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
論文 参考訳(メタデータ) (2023-09-05T03:14:39Z) - CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation
Learning [33.88636835443266]
キッチン環境におけるマルチタスク・マルチシーンロボット操作のレンズ下でのロボット学習のスケールアップのためのフレームワークを提案する。
CACTIという名前のフレームワークは,データ収集,データ拡張,視覚表現学習,模倣ポリシートレーニングの4つの段階を別々に扱う。
CACTIフレームワークでは、拡張段階の一部として、画像生成に最先端モデルを適用する利点を強調している。
論文 参考訳(メタデータ) (2022-12-12T05:30:08Z) - Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual
Observations [75.60524561611008]
この研究は、人中心の環境において、よく見られるバンプ、ランプ、階段の広い範囲にわたる知覚的移動を達成するために、スパースな視覚的観察の使用を活用することを目的としている。
まず、関心の均一な面を表すことのできる最小限の視覚入力を定式化し、このような外受容的・固有受容的データを統合した学習フレームワークを提案する。
本研究では, 平地を全方向歩行し, 障害物のある地形を前方移動させるタスクにおいて, 学習方針を検証し, 高い成功率を示す。
論文 参考訳(メタデータ) (2021-09-28T20:25:10Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。