論文の概要: VDD: Varied Drone Dataset for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2305.13608v2
- Date: Sun, 27 Aug 2023 14:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 23:34:47.063754
- Title: VDD: Varied Drone Dataset for Semantic Segmentation
- Title(参考訳): VDD: セマンティックセグメンテーションのための空のドローンデータセット
- Authors: Wenxiao Cai, Ke Jin, Jinyan Hou, Cong Guo, Letian Wu, Wankou Yang
- Abstract要約: 400の高解像度画像からなる大規模で高密度なラベル付きデータセットを提供する。
我々はCNNとTransformerのバックボーンを組み合わせた新しいDeepLabTモデルを開発した。
実験の結果,DeepLabTはVDDや他のドローンのデータセットで良好に動作することがわかった。
- 参考スコア(独自算出の注目度): 10.15287426479444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation of drone images is critical to many aerial vision tasks
as it provides essential semantic details that can compensate for the lack of
depth information from monocular cameras. However, maintaining high accuracy of
semantic segmentation models for drones requires diverse, large-scale, and
high-resolution datasets, which are rare in the field of aerial image
processing. Existing datasets are typically small and focus primarily on urban
scenes, neglecting rural and industrial areas. Models trained on such datasets
are not sufficiently equipped to handle the variety of inputs seen in drone
imagery. In the VDD-Varied Drone Dataset, we offer a large-scale and densely
labeled dataset comprising 400 high-resolution images that feature carefully
chosen scenes, camera angles, and varied light and weather conditions.
Furthermore, we have adapted existing drone datasets to conform to our
annotation standards and integrated them with VDD to create a dataset 1.5 times
the size of fine annotation of Cityscapes. We have developed a novel DeepLabT
model, which combines CNN and Transformer backbones, to provide a reliable
baseline for semantic segmentation in drone imagery. Our experiments indicate
that DeepLabT performs admirably on VDD and other drone datasets. We expect
that our dataset will generate considerable interest in drone image
segmentation and serve as a foundation for other drone vision tasks. VDD is
freely available on our website at https://vddvdd.com .
- Abstract(参考訳): ドローン画像のセマンティックセグメンテーションは、単眼カメラからの深度情報の欠如を補う重要なセマンティックな詳細を提供するため、多くの空中視覚タスクにとって重要である。
しかし、ドローンのセマンティックセグメンテーションモデルの高精度を維持するには、多種多様で大規模で高解像度なデータセットが必要である。
既存のデータセットは概して小さく、主に都市部に集中し、田園部や工業地帯を無視している。
このようなデータセットでトレーニングされたモデルは、ドローン画像に見られるさまざまな入力を処理するのに十分な装備がない。
VDD-Varied Drone Datasetでは、慎重に選択されたシーン、カメラアングル、様々な光と気象条件を含む400の高解像度画像からなる大規模で高密度なラベル付きデータセットを提供する。
さらに、既存のドローンデータセットをアノテーション標準に適合させ、VDDと統合して、Cityscapesの細かいアノテーションの1.5倍の大きさのデータセットを作成しました。
我々は,CNNとTransformerのバックボーンを組み合わせた新しいDeepLabTモデルを開発し,ドローン画像のセマンティックセグメンテーションのための信頼性の高いベースラインを提供する。
実験の結果,DeepLabTはVDDや他のドローンのデータセットで良好に動作することがわかった。
われわれのデータセットはドローン画像のセグメンテーションにかなりの関心を惹き出し、他のドローンビジョンタスクの基礎となるだろう。
VDDは、私たちのWebサイトで、https://vddvdd.com.comで無料で利用可能です。
関連論文リスト
- Game4Loc: A UAV Geo-Localization Benchmark from Game Data [0.0]
クロスビューペアデータの部分的マッチングを含む,より実用的なUAV測位タスクを提案する。
実験により,UAV測地のためのデータとトレーニング手法の有効性が示された。
論文 参考訳(メタデータ) (2024-09-25T13:33:28Z) - 360 in the Wild: Dataset for Depth Prediction and View Synthesis [66.58513725342125]
大規模な360$circ$ビデオデータセットを野放しに導入する。
このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。
データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
論文 参考訳(メタデータ) (2024-06-27T05:26:38Z) - UAV-VisLoc: A Large-scale Dataset for UAV Visual Localization [20.37586403749362]
大規模なUAV-VisLocデータセットを提示し、UAV視覚的ローカライゼーション作業を容易にする。
われわれのデータセットには6,742枚のドローン画像と11個の衛星マップが含まれており、緯度、経度、高度、捕獲日などのメタデータがある。
論文 参考訳(メタデータ) (2024-05-20T10:24:10Z) - TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。
私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。
我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文 参考訳(メタデータ) (2024-05-04T21:55:33Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - Towards Viewpoint Robustness in Bird's Eye View Segmentation [85.99907496019972]
AV知覚モデルがカメラ視点の変化にどのように影響するかを考察する。
投機時のピッチ、ヨー、深さ、高さへの小さな変化は、大きな性能低下につながる。
本稿では,新しいビュー合成技術を導入し,収集したデータをターゲットリグの視点に変換する手法を提案する。
論文 参考訳(メタデータ) (2023-09-11T02:10:07Z) - The MONET dataset: Multimodal drone thermal dataset recorded in rural
scenarios [2.4683968227344097]
私たちは、農村部を飛行するドローンに搭載されたサーマルカメラを使って、新しいマルチモーダルデータセットであるMONETを紹介します。
モネは162Kの注釈付きバウンディングボックスを備えた約53K画像で構成されている。
各画像は、姿勢、速度、高度、GPS座標に関する情報を含むドローンメタデータとタイムスタンプで一致している。
論文 参考訳(メタデータ) (2023-04-11T18:00:02Z) - VPAIR -- Aerial Visual Place Recognition and Localization in Large-scale
Outdoor Environments [49.82314641876602]
VPAIRという新しいデータセットを提示します。
データセットは地上300メートル以上の高度で飛行する軽航空機に記録されている。
このデータセットは、様々なタイプの挑戦的な風景を、100km以上にわたってカバーしている。
論文 参考訳(メタデータ) (2022-05-23T18:50:08Z) - Detection and Tracking Meet Drones Challenge [131.31749447313197]
本稿では、オブジェクト検出・追跡データセットとベンチマークのレビューを行い、手動アノテーションによる大規模ドローンによるオブジェクト検出・追跡データセットの収集の課題について論じる。
当社のVisDroneデータセットは、中国北部から南部にかけての14の都市部と郊外部で収集されたものです。
本稿では,ドローンにおける大規模物体検出・追跡の現場の現状を詳細に分析し,今後の方向性を提案するとともに,課題を結論づける。
論文 参考訳(メタデータ) (2020-01-16T00:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。