Fugu-MT 論文翻訳(概要): Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning

論文の概要: Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning

arxiv url: http://arxiv.org/abs/2506.06205v1
Date: Fri, 06 Jun 2025 16:08:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 21:34:56.779022
Title: Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning
Title（参考訳）: アストラ:階層型マルチモーダル学習による汎用移動ロボットを目指して
Authors: Sheng Chen, Peiyu He, Jiaxin Hu, Ziyang Liu, Yansheng Wang, Tao Xu, Chi Zhang, Chongchong Zhang, Chao An, Shiyu Cai, Duo Cao, Kangping Chen, Shuai Chu, Tianwei Chu, Mingdi Dan, Min Du, Weiwei Fang, Pengyou Fu, Junkai Hu, Xiaowei Jiang, Zhaodi Jiang, Fuxuan Li, Jun Li, Minghui Li, Mingyao Li, Yanchang Li, Zhibin Li, Guangming Liu, Kairui Liu, Lihao Liu, Weizhi Liu, Xiaoshun Liu, Yufei Liu, Yunfei Liu, Qiang Lu, Yuanfei Luo, Xiang Lv, Hongying Ma, Sai Ma, Lingxian Mi, Sha Sa, Hongxiang Shu, Lei Tian, Chengzhi Wang, Jiayu Wang, Kaijie Wang, Qingyi Wang, Renwen Wang, Tao Wang, Wei Wang, Xirui Wang, Chao Wei, Xuguang Wei, Zijun Xia, Zhaohao Xiao, Tingshuai Yan, Liyan Yang, Yifan Yang, Zhikai Yang, Zhong Yin, Li Yuan, Liuchun Yuan, Chi Zhang, Jinyang Zhang, Junhui Zhang, Linge Zhang, Zhenyi Zhang, Zheyu Zhang, Dongjie Zhu, Hang Li, Yangang Zhang,
Abstract要約: Astraは、モバイルロボットナビゲーションのための総合的なデュアルモデルアーキテクチャである。 Astra-Globalは視覚と言語入力を処理し、自己と目標のローカライゼーションを実行する。 Astra-Localは、ローカルパス計画とオドメトリー推定を処理する。
参考スコア（独自算出の注目度）: 40.770287109084826
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern robot navigation systems encounter difficulties in diverse and complex indoor environments. Traditional approaches rely on multiple modules with small models or rule-based systems and thus lack adaptability to new environments. To address this, we developed Astra, a comprehensive dual-model architecture, Astra-Global and Astra-Local, for mobile robot navigation. Astra-Global, a multimodal LLM, processes vision and language inputs to perform self and goal localization using a hybrid topological-semantic graph as the global map, and outperforms traditional visual place recognition methods. Astra-Local, a multitask network, handles local path planning and odometry estimation. Its 4D spatial-temporal encoder, trained through self-supervised learning, generates robust 4D features for downstream tasks. The planning head utilizes flow matching and a novel masked ESDF loss to minimize collision risks for generating local trajectories, and the odometry head integrates multi-sensor inputs via a transformer encoder to predict the relative pose of the robot. Deployed on real in-house mobile robots, Astra achieves high end-to-end mission success rate across diverse indoor environments.
Abstract（参考訳）: 現代のロボットナビゲーションシステムは、多様な複雑な屋内環境において困難に直面している。従来のアプローチでは、小さなモデルやルールベースのシステムを持つ複数のモジュールに依存していたため、新しい環境への適応性に欠けていた。そこで我々は,Astra-GlobalとAstra-Localという,モバイルロボットナビゲーションのための総合的なデュアルモデルアーキテクチャを開発した。マルチモーダルLLMであるAstra-Globalは、視覚と言語入力を処理し、グローバルマップとしてハイブリッドトポロジカル・セマンティックグラフを用いて、自己と目標のローカライゼーションを行い、従来の視覚的位置認識法より優れている。マルチタスクネットワークであるAstra-Localは、ローカルパス計画とドメトリ推定を処理する。その4D空間時間エンコーダは、自己教師付き学習によって訓練され、下流タスクのための堅牢な4D特徴を生成する。計画ヘッドは、フローマッチングと新しいマスク付きESDF損失を利用して局所軌道を生成する際の衝突リスクを最小限に抑え、オドメトリヘッドは、トランスフォーマーエンコーダを介してマルチセンサ入力を統合してロボットの相対的なポーズを予測する。実際のモバイルロボットにデプロイされたAstraは、さまざまな屋内環境におけるエンドツーエンドのミッション成功率を達成する。

関連論文リスト

Hybrid Motion Planning with Deep Reinforcement Learning for Mobile Robot Navigation [0.0]
深部強化学習(HMP-DRL)によるハイブリッド運動計画状態空間と報酬関数の両方に符号化されたチェックポイントのシーケンスを通じて、局所DRLポリシーに統合されたパスを生成するグラフベースのグローバルプランナを提案する。社会的コンプライアンスを確保するため、地域プランナーは、周辺エージェントのセマンティックタイプに基づいて、安全マージンと罰則を動的に調整するエンティティ対応報酬構造を採用する。
論文参考訳（メタデータ） (2025-12-31T05:58:57Z)
Humanoid Occupancy: Enabling A Generalized Multimodal Occupancy Perception System on Humanoid Robots [50.0783429451902]
ヒューマノイドロボット技術は急速に進歩しており、メーカーは特定のシナリオに合わせて様々な視覚認識モジュールを導入している。総合的な環境理解に不可欠なリッチなセマンティック情報と3D幾何学情報の両方を提供するため、占有率に基づく表現はヒューマノイドロボットに特に適していると広く認識されている。本稿では,ハードウェアとソフトウェアコンポーネントを統合した汎用マルチモーダル占有認識システムであるHumanoid Occupancy,データ取得装置,専用のアノテーションパイプラインを提案する。
論文参考訳（メタデータ） (2025-07-27T10:47:00Z)
Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [7.266794815157721]
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型フレームワークを提案する。 VLMは,航空画像からタスク特定セマンティックラベルと2次元空間情報を抽出し,地域計画を支援する。これは、VLMに基づく認識とLLM駆動のタスク推論とモーションプランニングを統合した地上異種システムの最初の実演である。
論文参考訳（メタデータ） (2025-06-05T13:27:41Z)
Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities [65.98704516122228]
基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
論文参考訳（メタデータ） (2025-05-14T15:28:43Z)
Watch Your STEPP: Semantic Traversability Estimation using Pose Projected Features [4.392942391043664]
人間の歩行のデモンストレーションから学ぶことにより,地形の移動性を評価する手法を提案する。提案手法は,DINOv2視覚変換器モデルを用いて生成した高密度画素ワイドな特徴埋め込みを利用する。損失を最小化することにより、ネットワークは、低い復元誤差で見慣れた地形と、高い復元誤差で見慣れないまたは危険な地形とを区別する。
論文参考訳（メタデータ） (2025-01-29T11:53:58Z)
Learning Forward Dynamics Model and Informed Trajectory Sampler for Safe Quadruped Navigation [1.2783783498844021]
典型的なSOTAシステムは、マッパー、グローバルプランナー、ローカルプランナー、コマンドトラッキングコントローラの4つの主要モジュールで構成されている。我々は,グローバルプランナから粗い計画経路を追跡するためのベロシティプランを生成するために,ロバストで安全なローカルプランナを構築している。この枠組みを用いることで、四足歩行ロボットは衝突なしに様々な複雑な環境を自律的に移動でき、ベースライン法と比較してスムーズなコマンドプランを生成することができる。
論文参考訳（メタデータ） (2022-04-19T04:01:44Z)
SABER: Data-Driven Motion Planner for Autonomously Navigating Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文参考訳（メタデータ） (2021-08-03T02:56:21Z)
Kimera-Multi: Robust, Distributed, Dense Metric-Semantic SLAM for Multi-Robot Systems [92.26462290867963]
Kimera-Multiは、最初のマルチロボットシステムであり、不正なインターループとイントラロボットループの閉鎖を識別し拒否することができる。我々は、フォトリアリスティックシミュレーション、SLAMベンチマークデータセット、地上ロボットを用いて収集された屋外データセットの挑戦において、Kimera-Multiを実証した。
論文参考訳（メタデータ） (2021-06-28T03:56:40Z)
Learning Synthetic to Real Transfer for Localization and Navigational Tasks [7.019683407682642]
ナビゲーションは、コンピュータビジョン、ロボット工学、制御の概念を組み合わせて、複数の分野のクロスロードにある。この研究は、実世界への移動をできる限り少ない努力で行うことができるナビゲーションパイプラインをシミュレーションで作成することを目的としていた。ナビゲーションパイプラインを設計するには、環境、ローカライゼーション、ナビゲーション、計画の4つの大きな課題が発生する。
論文参考訳（メタデータ） (2020-11-20T08:37:03Z)
Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文参考訳（メタデータ） (2020-07-28T07:34:30Z)
Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文参考訳（メタデータ） (2020-01-08T04:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。