論文の概要: Dynamic Open Vocabulary Enhanced Safe-landing with Intelligence (DOVESEI)
- arxiv url: http://arxiv.org/abs/2308.11471v5
- Date: Fri, 3 May 2024 19:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 01:06:19.520941
- Title: Dynamic Open Vocabulary Enhanced Safe-landing with Intelligence (DOVESEI)
- Title(参考訳): 動的オープン語彙強化型インテリジェンス付き安全着陸(DOVESEI)
- Authors: Haechan Mark Bong, Rongge Zhang, Ricardo de Azambuja, Giovanni Beltrame,
- Abstract要約: この作業は、都市空飛ぶロボットの基本的なステップである、安全な着陸を目指しています。
本稿では,オープンボキャブラリ画像セグメンテーションの能力を生かして,視覚サーボ機能を利用したリアクティブUAVシステムを提案する。
グローバルセグメンテーションと比較して、着陸成功率はほぼ10倍に向上した。
- 参考スコア(独自算出の注目度): 9.29751283907164
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work targets what we consider to be the foundational step for urban airborne robots, a safe landing. Our attention is directed toward what we deem the most crucial aspect of the safe landing perception stack: segmentation. We present a streamlined reactive UAV system that employs visual servoing by harnessing the capabilities of open vocabulary image segmentation. This approach can adapt to various scenarios with minimal adjustments, bypassing the necessity for extensive data accumulation for refining internal models, thanks to its open vocabulary methodology. Given the limitations imposed by local authorities, our primary focus centers on operations originating from altitudes of 100 meters. This choice is deliberate, as numerous preceding works have dealt with altitudes up to 30 meters, aligning with the capabilities of small stereo cameras. Consequently, we leave the remaining 20m to be navigated using conventional 3D path planning methods. Utilizing monocular cameras and image segmentation, our findings demonstrate the system's capability to successfully execute landing maneuvers at altitudes as low as 20 meters. However, this approach is vulnerable to intermittent and occasionally abrupt fluctuations in the segmentation between frames in a video stream. To address this challenge, we enhance the image segmentation output by introducing what we call a dynamic focus: a masking mechanism that self adjusts according to the current landing stage. This dynamic focus guides the control system to avoid regions beyond the drone's safety radius projected onto the ground, thus mitigating the problems with fluctuations. Through the implementation of this supplementary layer, our experiments have reached improvements in the landing success rate of almost tenfold when compared to global segmentation. All the source code is open source and available online (github.com/MISTLab/DOVESEI).
- Abstract(参考訳): この作業は、都市空飛ぶロボットの基本的なステップである、安全な着陸を目指しています。
私たちの関心は、安全な着陸認識スタックの最も重要な側面であるセグメンテーションに向けられている。
本稿では,オープンボキャブラリ画像セグメンテーションの能力を生かして,視覚サーボ機能を利用したリアクティブUAVシステムを提案する。
このアプローチは、そのオープンな語彙方法論のおかげで、内部モデルを洗練するための広範なデータ蓄積の必要性を回避し、最小限の調整で様々なシナリオに適応することができる。
地方自治体が課した制限を踏まえると、当社は高度100mの運用に重点を置いています。
この選択は意図的であり、多くの先行作品が、小型ステレオカメラの能力に合わせて、高度30メートルに対処してきた。
その結果,従来の3次元経路計画法を用いて,残りの20mをナビゲートした。
単眼カメラと画像セグメンテーションを用いて, 高度20mまでの着地操作を成功させた。
しかし,この手法は,映像ストリーム内のフレーム間セグメンテーションにおける断続的かつ時折急激な変動に対して脆弱である。
この課題に対処するために、我々はダイナミックフォーカスと呼ばれる、現在の着陸段階に応じて自己調整するマスキング機構を導入することにより、画像分割出力を強化する。
このダイナミックフォーカスは、制御システムを誘導し、地上に投射されたドローンの安全半径を超える領域を避けることで、変動に伴う問題を緩和する。
この補助層の実装により,グローバルセグメンテーションと比較して,着陸成功率が約10倍に向上した。
ソースコードはすべてオープンソースでオンラインで入手できる(github.com/MISTLab/DOVESEI)。
関連論文リスト
- Motion Segmentation for Neuromorphic Aerial Surveillance [42.04157319642197]
イベントカメラは優れた時間分解能、優れたダイナミックレンジ、最小限の電力要件を提供する。
固定間隔で冗長な情報をキャプチャする従来のフレームベースのセンサーとは異なり、イベントカメラは画素レベルの明るさ変化を非同期に記録する。
本稿では,イベントデータと光フロー情報の両方に自己監督型視覚変換器を利用する動き分割手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T04:36:13Z) - SGV3D:Towards Scenario Generalization for Vision-based Roadside 3D Object Detection [27.991404725024953]
現在の視覚に基づく道路側検出法は,ラベル付きシーンでは精度が高いが,新しいシーンでは性能が劣る。
これは、ロードサイドカメラが設置後も静止しているためであり、その結果、これらのロードサイドの背景とカメラのポーズにアルゴリズムが適合しているためである。
我々は,SGV3Dと呼ばれる,視覚に基づく道路側3次元物体検出のための革新的なシナリオ一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T12:31:13Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - A Flexible Framework for Virtual Omnidirectional Vision to Improve
Operator Situation Awareness [2.817412580574242]
本稿では,ロボットのどこに設置した複数のカメラを融合させる新しい手法に基づいて,仮想プロジェクションのためのフレキシブルなフレームワークを提案する。
カメラ画像と幾何学的3Dライダーデータを融合させることでシーン理解を改善するための補完的なアプローチを提案し,色付き点雲を得る。
論文 参考訳(メタデータ) (2023-02-01T10:40:05Z) - A vision-based autonomous UAV inspection framework for unknown tunnel
construction sites with dynamic obstacles [7.340017786387768]
本稿では,動的トンネル環境のための視覚に基づくUAV検査フレームワークを提案する。
我々のフレームワークには、動的障害を同時に追跡し、静的障害を表現できる新しい動的マップモジュールが含まれています。
実際のトンネルでの飛行実験は, トンネル掘削面を自律的に検査できることを示すものである。
論文 参考訳(メタデータ) (2023-01-20T04:42:30Z) - AirTrack: Onboard Deep Learning Framework for Long-Range Aircraft
Detection and Tracking [3.3773749296727535]
AirTrackは、sUASシステムのサイズ、重量、電力制約を尊重するリアルタイムの視覚のみの検出および追跡フレームワークである。
AirTrackは、Amazon Airborne Object Tracking(AOT)で最先端のアートベースラインを上回ります。
実験による評価から,本システムでは,最大で700mまでの95%以上をトラックできる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-26T16:58:00Z) - VPAIR -- Aerial Visual Place Recognition and Localization in Large-scale
Outdoor Environments [49.82314641876602]
VPAIRという新しいデータセットを提示します。
データセットは地上300メートル以上の高度で飛行する軽航空機に記録されている。
このデータセットは、様々なタイプの挑戦的な風景を、100km以上にわたってカバーしている。
論文 参考訳(メタデータ) (2022-05-23T18:50:08Z) - Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual
Observations [75.60524561611008]
この研究は、人中心の環境において、よく見られるバンプ、ランプ、階段の広い範囲にわたる知覚的移動を達成するために、スパースな視覚的観察の使用を活用することを目的としている。
まず、関心の均一な面を表すことのできる最小限の視覚入力を定式化し、このような外受容的・固有受容的データを統合した学習フレームワークを提案する。
本研究では, 平地を全方向歩行し, 障害物のある地形を前方移動させるタスクにおいて, 学習方針を検証し, 高い成功率を示す。
論文 参考訳(メタデータ) (2021-09-28T20:25:10Z) - Towards Robust Monocular Visual Odometry for Flying Robots on Planetary
Missions [49.79068659889639]
火星に着陸したばかりのIngenuityは、トラバーサビリティの影響を受けない新時代の探検の始まりとなるでしょう。
高速な光フロートラッキングを用いた高能率単分子オードメトリーアルゴリズムを提案する。
また、相対翻訳情報行列の主成分分析に基づいて、スケールドリフトの現在のリスクを推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-12T12:52:20Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。