論文の概要: MEM: Multi-Modal Elevation Mapping for Robotics and Learning
- arxiv url: http://arxiv.org/abs/2309.16818v1
- Date: Thu, 28 Sep 2023 19:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 16:25:42.795872
- Title: MEM: Multi-Modal Elevation Mapping for Robotics and Learning
- Title(参考訳): MEM:ロボットと学習のためのマルチモーダル標高マッピング
- Authors: Gian Erni, Jonas Frey, Takahiro Miki, Matias Mattamala, Marco Hutter
- Abstract要約: 我々は、複数の情報源からのマルチモーダル情報を一般的な地図表現に融合させることにより、2.5Dロボット中心の標高マッピングフレームワークを拡張した。
我々のシステムはGPU上で動くように設計されており、様々なロボットや学習タスクをリアルタイムに行うことができる。
- 参考スコア(独自算出の注目度): 10.476978089902818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Elevation maps are commonly used to represent the environment of mobile
robots and are instrumental for locomotion and navigation tasks. However, pure
geometric information is insufficient for many field applications that require
appearance or semantic information, which limits their applicability to other
platforms or domains. In this work, we extend a 2.5D robot-centric elevation
mapping framework by fusing multi-modal information from multiple sources into
a popular map representation. The framework allows inputting data contained in
point clouds or images in a unified manner. To manage the different nature of
the data, we also present a set of fusion algorithms that can be selected based
on the information type and user requirements. Our system is designed to run on
the GPU, making it real-time capable for various robotic and learning tasks. We
demonstrate the capabilities of our framework by deploying it on multiple
robots with varying sensor configurations and showcasing a range of
applications that utilize multi-modal layers, including line detection, human
detection, and colorization.
- Abstract(参考訳): 標高マップは移動ロボットの環境を表現するために一般的に使われ、移動やナビゲーションの作業に役立っている。
しかし、外見や意味情報を必要とする多くのフィールドアプリケーションでは、純粋に幾何学的な情報は不十分である。
本研究では,複数ソースからのマルチモーダル情報を一般的な地図表現に融合することにより,2.5次元ロボット中心の標高マッピングフレームワークを拡張する。
このフレームワークでは、ポイントクラウドやイメージに含まれるデータを統一的に入力することができる。
データの異なる性質を管理するために,情報タイプとユーザ要求に基づいて選択可能な融合アルゴリズムのセットも提示する。
我々のシステムはGPU上で動くように設計されており、様々なロボットや学習タスクをリアルタイムに行うことができる。
センサ構成の異なる複数のロボットにデプロイし,マルチモーダルレイヤを利用するアプリケーションとして,ライン検出,人間検出,カラー化などを示すことで,このフレームワークの能力を実証した。
関連論文リスト
- MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。
提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文 参考訳(メタデータ) (2024-07-22T14:24:56Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Pre-Trained Masked Image Model for Mobile Robot Navigation [16.330708552384053]
2Dトップダウンマップは、未知の領域を通る移動ロボットのナビゲーションと探索に一般的に使用される。
近年の研究では、学習に基づくアプローチによって環境の構造パターンを予測することにより、タスク効率が大幅に向上することが示されている。
既存の基盤ビジョンネットワークは微調整なしで同じことを実現できることを示す。
論文 参考訳(メタデータ) (2023-10-10T21:16:29Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - HabitatDyn Dataset: Dynamic Object Detection to Kinematics Estimation [16.36110033895749]
本稿では,合成RGBビデオ,セマンティックラベル,深度情報,および運動情報を含むデータセットHabitatDynを提案する。
HabitatDynは移動カメラを搭載した移動ロボットの視点で作られ、6種類の移動物体をさまざまな速度で撮影する30のシーンを含んでいる。
論文 参考訳(メタデータ) (2023-04-21T09:57:35Z) - ExAug: Robot-Conditioned Navigation Policies via Geometric Experience
Augmentation [73.63212031963843]
本研究では,多様な環境における複数のデータセットから異なるロボットプラットフォームを体験するための新しいフレームワークであるExAugを提案する。
トレーニングされたポリシーは、屋内と屋外の障害物のある3つの異なるカメラを備えた2つの新しいロボットプラットフォームで評価される。
論文 参考訳(メタデータ) (2022-10-14T01:32:15Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。