Fugu-MT 論文翻訳(概要): Bird's Eye View Based Pretrained World model for Visual Navigation

論文の概要: Bird's Eye View Based Pretrained World model for Visual Navigation

arxiv url: http://arxiv.org/abs/2310.18847v2
Date: Sat, 23 Mar 2024 00:28:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 02:35:50.862672
Title: Bird's Eye View Based Pretrained World model for Visual Navigation
Title（参考訳）: 視覚ナビゲーションのためのバードアイビューに基づく事前学習世界モデル
Authors: Kiran Lekkala, Chen Liu, Laurent Itti,
Abstract要約: 本稿では,従来の世界モデルにおけるコンポーネントを,シミュレータ内で完全に訓練された堅牢なシステムに融合させる新しいシステムを提案する。我々のロボットは、複雑なtextitFirst-Person View(FPV)ベースのRGBイメージからBEV表現への変換を最初に学習することでシミュレータでナビゲートすることを学ぶ。実世界でのテストでは、FPVベースのRGB画像の知覚モデルを用いて、FPVからBEVトランスレータへの埋め込みを学習する。
参考スコア（独自算出の注目度）: 12.760191524187064
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sim2Real transfer has gained popularity because it helps transfer from inexpensive simulators to real world. This paper presents a novel system that fuses components in a traditional World Model into a robust system, trained entirely within a simulator, that Zero-Shot transfers to the real world. To facilitate transfer, we use an intermediary representation that is based on \textit{Bird's Eye View (BEV)} images. Thus, our robot learns to navigate in a simulator by first learning to translate from complex \textit{First-Person View (FPV)} based RGB images to BEV representations, then learning to navigate using those representations. Later, when tested in the real world, the robot uses the perception model that translates FPV-based RGB images to embeddings that were learned by the FPV to BEV translator and that can be used by the downstream policy. The incorporation of state-checking modules using \textit{Anchor images} and Mixture Density LSTM not only interpolates uncertain and missing observations but also enhances the robustness of the model in the real-world. We trained the model using data from a Differential drive robot in the CARLA simulator. Our methodology's effectiveness is shown through the deployment of trained models onto a real-world Differential drive robot. Lastly we release a comprehensive codebase, dataset and models for training and deployment (\url{https://sites.google.com/view/value-explicit-pretraining}).
Abstract（参考訳）: Sim2Realトランスファーは、安価なシミュレータから現実世界へのトランスファーを支援することで人気を博している。本稿では,従来の世界モデルにおけるコンポーネントを,ゼロショットが現実の世界へ移行するようにシミュレータ内で完全に訓練されたロバストなシステムに融合するシステムを提案する。転送を容易にするために, \textit{Bird's Eye View (BEV) 画像に基づく中間表現を用いる。そこで,本ロボットはまず,複雑な \textit{First-Person View (FPV) をベースとしたRGB 画像から BEV 表現への変換を学習し,その表現を用いてナビゲートを学習する。その後、実世界でのテストでは、FPVベースのRGBイメージを、FPVからBEVトランスレータに学習した埋め込みに変換し、下流ポリシーで使用できる知覚モデルを使用する。 textit{Anchor image} と Mixture Density LSTM を用いた状態チェックモジュールの組込みは、不確実かつ欠落した観測を補間するだけでなく、実世界のモデルの堅牢性を高める。 CARLAシミュレータで差動駆動ロボットのデータを用いてモデルを訓練した。本手法の有効性は,実世界の微分駆動ロボットに訓練されたモデルを配置することで示される。最後に、トレーニングとデプロイメントのための包括的なコードベース、データセット、モデル(\url{https://sites.google.com/view/value-explicit-pretraining})をリリースします。

関連論文リスト

cVLA: Towards Efficient Camera-Space VLAs [26.781510474119845]
Vision-Language-Action(VLA)モデルは、複雑なロボット操作タスクに取り組むための魅力的なフレームワークを提供する。 2次元画像上での視覚言語モデルの競合性能を活用する新しいVLA手法を提案する。我々のモデルは軌道方向の経路を予測し、トレーニングとロボットの実施の両方を効果的に行う。
論文参考訳（メタデータ） (2025-07-02T22:56:41Z)
Learning autonomous driving from aerial imagery [67.06858775696453]
フォトグラムシミュレーターは、生成済みの資産を新しいビューに変換することによって、新しいビューを合成することができる。我々は、ニューラルネットワーク場(NeRF)を中間表現として使用し、地上車両の視点から新しいビューを合成する。
論文参考訳（メタデータ） (2024-10-18T05:09:07Z)
Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文参考訳（メタデータ） (2024-06-21T13:48:37Z)
Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文参考訳（メタデータ） (2023-10-09T19:42:22Z)
Towards Optimal Strategies for Training Self-Driving Perception Models in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文参考訳（メタデータ） (2021-11-15T18:37:43Z)
KOVIS: Keypoint-based Visual Servoing with Zero-Shot Sim-to-Real Transfer for Robotics Manipulation [8.81267687440119]
KOVISは、目視ステレオカメラシステムを用いたロボット操作作業のための、学習ベースで校正不要なビジュアルサーボ手法である。シミュレーション環境でのみ、ディープニューラルネットワークをトレーニングします。本研究では,ロボット操作タスクのシミュレーション環境と実環境実験の両方において,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2020-07-28T02:53:28Z)
RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。 RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文参考訳（メタデータ） (2020-06-16T08:58:07Z)
SimAug: Learning Robust Representations from Simulation for Trajectory Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文参考訳（メタデータ） (2020-04-04T21:22:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。