論文の概要: SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum
- arxiv url: http://arxiv.org/abs/2412.16346v1
- Date: Fri, 20 Dec 2024 21:13:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:00.810090
- Title: SOUS VIDE: Cooking Visual Drone Navigation Policies in a Gaussian Splatting Vacuum
- Title(参考訳): Sous VIDE:ガウスのスティング真空で視覚ドローンのナビゲーションポリシーを調理する
- Authors: JunEn Low, Maximilian Adang, Javier Yu, Keiko Nagami, Mac Schwager,
- Abstract要約: エンドツーエンドの視覚ドローンナビゲーションのための新しいシミュレータ,トレーニングアプローチ,およびポリシーアーキテクチャ,いわゆるSOUS VIDEを提案する。
我々のシミュレータFiGSは、計算学的にシンプルなドローン動力学モデルと高忠実度ガウススプラッティングシーンの再構成を結合する。
SOUS VIDEのポリシーは、30%の質量変化、40m/sの風洞、周囲の明るさの60%の変化、シーンからのオブジェクトのシフトや削除、ドローンの視野を積極的に移動する人々に対して堅牢であることを示す。
- 参考スコア(独自算出の注目度): 8.410894757762346
- License:
- Abstract: We propose a new simulator, training approach, and policy architecture, collectively called SOUS VIDE, for end-to-end visual drone navigation. Our trained policies exhibit zero-shot sim-to-real transfer with robust real-world performance using only on-board perception and computation. Our simulator, called FiGS, couples a computationally simple drone dynamics model with a high visual fidelity Gaussian Splatting scene reconstruction. FiGS can quickly simulate drone flights producing photorealistic images at up to 130 fps. We use FiGS to collect 100k-300k observation-action pairs from an expert MPC with privileged state and dynamics information, randomized over dynamics parameters and spatial disturbances. We then distill this expert MPC into an end-to-end visuomotor policy with a lightweight neural architecture, called SV-Net. SV-Net processes color image, optical flow and IMU data streams into low-level body rate and thrust commands at 20Hz onboard a drone. Crucially, SV-Net includes a Rapid Motor Adaptation (RMA) module that adapts at runtime to variations in drone dynamics. In a campaign of 105 hardware experiments, we show SOUS VIDE policies to be robust to 30% mass variations, 40 m/s wind gusts, 60% changes in ambient brightness, shifting or removing objects from the scene, and people moving aggressively through the drone's visual field. Code, data, and experiment videos can be found on our project page: https://stanfordmsl.github.io/SousVide/.
- Abstract(参考訳): エンドツーエンドの視覚ドローンナビゲーションのための新しいシミュレータ,トレーニングアプローチ,およびポリシーアーキテクチャ,いわゆるSOUS VIDEを提案する。
トレーニングされたポリシーは、オンボードの知覚と計算のみを使用して、実世界の堅牢なパフォーマンスで、ゼロショットのsim-to-real転送を示す。
我々のシミュレータFiGSは、計算学的にシンプルなドローン動力学モデルと高忠実度ガウススプラッティングシーンの再構成を結合する。
FiGSは、最大130fpsで写真リアリスティックな画像を生成するドローン飛行をシミュレートすることができる。
我々はFiGSを用いて、特権状態と動的情報を持つ専門家MPCから100k-300kの観測-アクションペアを収集し、動的パラメータと空間的乱れをランダム化した。
次に、この専門家MPCを、SV-Netと呼ばれる軽量なニューラルネットワークアーキテクチャでエンドツーエンドのビズモータポリシーに蒸留する。
SV-Netは、カラー画像、光学フロー、IMUデータストリームを低レベルのボディレートに処理し、ドローン上で20Hzの推力コマンドを実行する。
重要なのは、SV-NetにはRapid Motor Adaptation (RMA)モジュールがあり、実行時にドローンのダイナミックスに適応する。
105のハードウェア実験のキャンペーンでは、SOUS VIDEポリシが30%の質量変化、40m/sの風洞、周囲の明るさの60%の変化、シーンからのオブジェクトのシフトや削除、ドローンの視野を積極的に移動する人々に対して堅牢であることを示しました。
コード、データ、実験ビデオはプロジェクトページで確認できます。
関連論文リスト
- UniSim: A Neural Closed-Loop Sensor Simulator [76.79818601389992]
センサ搭載車両によって記録された1つのログをキャプチャする、ニューラルネットワークシミュレータUniSimを提示する。
UniSimは、静的バックグラウンドと動的アクターの両方を再構築するために、ニューラルネットワーク機能グリッドを構築する。
動的オブジェクトの学習可能な事前情報を組み込んで、畳み込みネットワークを利用して未確認領域を完成させる。
論文 参考訳(メタデータ) (2023-08-03T17:56:06Z) - ScatterNeRF: Seeing Through Fog with Physically-Based Inverse Neural
Rendering [83.75284107397003]
本稿では,シーンをレンダリングし,霧のない背景を分解するニューラルネットワークレンダリング手法であるScatterNeRFを紹介する。
本研究では,散乱量とシーンオブジェクトの非絡み合い表現を提案し,物理に着想を得た損失を伴ってシーン再構成を学習する。
マルチビューIn-the-Wildデータをキャプチャして,大規模な霧室内でのキャプチャを制御し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-05-03T13:24:06Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z) - Learning a Single Near-hover Position Controller for Vastly Different
Quadcopters [56.37274861303324]
本稿では,クワッドコプターのための適応型ニアホバー位置制御器を提案する。
これは、非常に異なる質量、大きさ、運動定数を持つクワッドコプターに展開することができる。
また、実行中に未知の障害に迅速に適応する。
論文 参考訳(メタデータ) (2022-09-19T17:55:05Z) - MOBDrone: a Drone Video Dataset for Man OverBoard Rescue [4.393945242867356]
我々は,海洋環境における125万以上のドローンビュー画像の収集であるMOBDroneベンチマークを,いくつかの条件下でリリースした。
私たちは180K以上のオブジェクトを手動でアノテートしました。
我々はMOBDroneデータに基づくいくつかの最先端物体検出器の性能解析を行い、さらなる研究のベースラインとして機能する。
論文 参考訳(メタデータ) (2022-03-15T15:02:23Z) - EVPropNet: Detecting Drones By Finding Propellers For Mid-Air Landing
And Following [11.79762223888294]
ドローンプロペラは画像の最も速く動く部分であり、激しい動きのぼけなくして古典的なカメラで直接「見える」ことはできない。
イベントカメラのデータからプロペラを検出するために、EVPropNetと呼ばれるディープニューラルネットワークをトレーニングする。
当社のネットワークには, (a) 目印のないドローンの追跡と追跡, (b) ニアフーバードローンへの着陸という,2つの応用例がある。
論文 参考訳(メタデータ) (2021-06-29T01:16:01Z) - Robust Navigation for Racing Drones based on Imitation Learning and
Modularization [3.616948583169635]
本稿では、認識モジュールにカスタマイズされた畳み込みニューラルネットワーク(CNN)を用いた、視覚に基づくモジュール化されたドローンレースナビゲーションシステムを提案する。
我々は、最先端のプランナーとコントローラを利用して低レベルの制御コマンドを生成し、データベースとモデルベースの両方のアプローチの利点を利用する。
論文 参考訳(メタデータ) (2021-05-27T03:26:40Z) - Out of the Box: Embodied Navigation in the Real World [45.97756658635314]
シミュレーションで得られた知識を現実世界に伝達する方法を示す。
モデルは1台のIntel RealSenseカメラを搭載したLoCoBotにデプロイします。
本実験では,得られたモデルを実世界に展開することで,満足のいく結果が得られることを示した。
論文 参考訳(メタデータ) (2021-05-12T18:00:14Z) - DriveGAN: Towards a Controllable High-Quality Neural Simulation [147.6822288981004]
DriveGANと呼ばれる新しい高品質のニューラルシミュレータを紹介します。
DriveGANは、異なるコンポーネントを監督なしで切り離すことによって制御性を達成する。
実世界の運転データ160時間を含む複数のデータセットでdriveganをトレーニングします。
論文 参考訳(メタデータ) (2021-04-30T15:30:05Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。