論文の概要: YUNet: Improved YOLOv11 Network for Skyline Detection
- arxiv url: http://arxiv.org/abs/2502.12449v1
- Date: Tue, 18 Feb 2025 02:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:13.178652
- Title: YUNet: Improved YOLOv11 Network for Skyline Detection
- Title(参考訳): YUNet: スカイライン検出のためのYOLOv11ネットワークの改良
- Authors: Gang Yang, Miao Wang, Quan Zhou, Jiangchuan Li,
- Abstract要約: スカイライン検出は、ジオローカライザ、飛行制御、視覚ナビゲーション、ポートセキュリティなどにおいて重要な役割を果たす。
我々は、YUNetアルゴリズムを提案し、YOLOv11アーキテクチャを改良し、空域を分割し、複雑で可変な状況で空線を抽出する。
我々のテストでは、YUnetセグメンテーションのIoUが0.9858に達することを示し、YUnetのスカイライン検出の平均誤差はわずか1.36ピクセルである。
- 参考スコア(独自算出の注目度): 9.579401209757146
- License:
- Abstract: Skyline detection plays an important role in geolocalizaion, flight control, visual navigation, port security, etc. The appearance of the sky and non-sky areas are variable, because of different weather or illumination environment, which brings challenges to skyline detection. In this research, we proposed the YUNet algorithm, which improved the YOLOv11 architecture to segment the sky region and extract the skyline in complicated and variable circumstances. To improve the ability of multi-scale and large range contextual feature fusion, the YOLOv11 architecture is extended as an UNet-like architecture, consisting of an encoder, neck and decoder submodule. The encoder extracts the multi-scale features from the given images. The neck makes fusion of these multi-scale features. The decoder applies the fused features to complete the prediction rebuilding. To validate the proposed approach, the YUNet was tested on Skyfinder and CH1 datasets for segmentation and skyline detection respectively. Our test shows that the IoU of YUnet segmentation can reach 0.9858, and the average error of YUnet skyline detection is just 1.36 pixels. The implementation is published at https://github.com/kuazhangxiaoai/SkylineDet-YOLOv11Seg.git.
- Abstract(参考訳): スカイライン検出は、ジオローカライザ、飛行制御、視覚ナビゲーション、ポートセキュリティなどにおいて重要な役割を果たす。
天気や照明環境が異なるため、空と非スキー場の外観は様々であり、スカイラインの検出に困難をもたらす。
本研究では, YOLOv11アーキテクチャを改良したYUNetアルゴリズムを提案する。
YOLOv11アーキテクチャは、マルチスケールで広い範囲の機能融合の能力を改善するために、エンコーダ、ネック、デコーダのサブモジュールからなるUNetのようなアーキテクチャとして拡張されている。
エンコーダは、与えられた画像からマルチスケールの特徴を抽出する。
ネックはこれらのマルチスケール特徴を融合させる。
デコーダは融合した機能を適用して、予測の再構築を完了します。
提案手法を検証するため、YUNetはSkyfinderとCH1データセットでそれぞれセグメンテーションとスカイライン検出の試験を行った。
我々のテストでは、YUnetセグメンテーションのIoUが0.9858に達することを示し、YUnetのスカイライン検出の平均誤差はわずか1.36ピクセルである。
実装はhttps://github.com/kuazhangxiaoai/SkylineDet-YOLOv11Seg.gitで公開されている。
関連論文リスト
- P2P-Bridge: Diffusion Bridges for 3D Point Cloud Denoising [81.92854168911704]
私たちは、Diffusion Schr"odingerブリッジをポイントクラウドに適応させる新しいフレームワークを通じて、ポイントクラウドを飾るタスクに取り組みます。
オブジェクトデータセットの実験では、P2P-Bridgeは既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-08-29T08:00:07Z) - FGFusion: Fine-Grained Lidar-Camera Fusion for 3D Object Detection [18.91387885960839]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
最も一般的な方法は、3Dポイントクラウドとカメライメージを徐々にダウンスケールし、ハイレベルな機能を融合させる。
画像と点雲のマルチスケール特徴をフル活用したファイングレードLidar-Camera Fusion (FGFusion)を提案する。
論文 参考訳(メタデータ) (2023-09-21T06:24:59Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - SDVRF: Sparse-to-Dense Voxel Region Fusion for Multi-modal 3D Object
Detection [6.490564374810672]
本稿では,各ボクセルの局所点雲を動的に投影することで得られる新しい概念であるVoxel Region(VR)を提案する。
Sparse-to-Dense Voxel Region Fusion (SDVRF) という新しい融合法を提案する。
具体的には、VR内の画像特徴マップの画素数を増やして、スパースポイントから抽出されたボクセル特徴を補い、より密接な融合を実現する。
論文 参考訳(メタデータ) (2023-04-17T14:17:45Z) - Adjacent-Level Feature Cross-Fusion With 3-D CNN for Remote Sensing
Image Change Detection [20.776673215108815]
AFCF3D-Netという名前の3次元畳み込みを伴う新しい近接レベル特徴融合ネットワークを提案する。
提案されたAFCF3D-Netは、3つの挑戦的なリモートセンシングCDデータセットで検証されている。
論文 参考訳(メタデータ) (2023-02-10T08:21:01Z) - Deep Point Cloud Reconstruction [74.694733918351]
3Dスキャンから得られる点雲は、しばしばスパース、ノイズ、不規則である。
これらの問題に対処するため、最近の研究は別々に行われ、不正確な点雲を密度化、復調し、完全な不正確な点雲を観測している。
本研究では,1) 初期密度化とデノナイズのための3次元スパース集積時間ガラスネットワーク,2) 離散ボクセルを3Dポイントに変換するトランスフォーマーによる改良,の2段階からなる深部点雲再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T07:53:28Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z) - Aerial Height Prediction and Refinement Neural Networks with Semantic
and Geometric Guidance [0.0]
このレターでは、まずマルチタスクニューラルネットワークを用いて、単一のRGB空中入力画像から得られる高さマップを予測する2段階のアプローチを提案する。
2つの公開データセットの実験により、我々の手法は最先端の結果を生成可能であることが示された。
論文 参考訳(メタデータ) (2020-11-21T01:39:37Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - Pseudo-LiDAR Point Cloud Interpolation Based on 3D Motion Representation
and Spatial Supervision [68.35777836993212]
我々はPseudo-LiDAR点雲ネットワークを提案し、時間的および空間的に高品質な点雲列を生成する。
点雲間のシーンフローを活用することにより,提案ネットワークは3次元空間運動関係のより正確な表現を学習することができる。
論文 参考訳(メタデータ) (2020-06-20T03:11:04Z) - HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection [15.491551518695209]
我々は、ポイントクラウドに基づく自律運転のための3Dオブジェクト検出のための新しい一段階統合ネットワークであるHybrid Voxel Network(HVNet)を提案する。
近年の研究では、voxel PointNetスタイルの特徴抽出器による2次元のボクセル化が、大規模な3次元シーンの正確かつ効率的な検出につながることが示されている。
HVNetは、リアルタイム推論速度31Hzの既存のすべての手法の中で最高のmAPを達成する。
論文 参考訳(メタデータ) (2020-02-29T05:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。