論文の概要: YOLO11-4K: An Efficient Architecture for Real-Time Small Object Detection in 4K Panoramic Images
- arxiv url: http://arxiv.org/abs/2512.16493v1
- Date: Thu, 18 Dec 2025 13:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.064014
- Title: YOLO11-4K: An Efficient Architecture for Real-Time Small Object Detection in 4K Panoramic Images
- Title(参考訳): YOLO11-4K:4Kパノラマ画像におけるリアルタイム小物体検出のための効率的なアーキテクチャ
- Authors: Huma Hafeez, Matthew Garratt, Jo Plested, Sankaran Iyer, Arcot Sowmya,
- Abstract要約: 本研究では,4Kパノラマ画像に適したリアルタイム検出フレームワークYOLO11-4Kを紹介する。
このアーキテクチャは、小さなオブジェクトに対する感度を改善するために、P2層を備えた新しいマルチスケール検出ヘッドを備えている。
YOLO11-4Kは0.95 mAPを0.50 IoUで達成し、1フレームあたり28.3ミリ秒の推論を実現し、YOLO11と比較して75%の遅延低減を実現している。
- 参考スコア(独自算出の注目度): 7.5117172634019775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The processing of omnidirectional 360-degree images poses significant challenges for object detection due to inherent spatial distortions, wide fields of view, and ultra-high-resolution inputs. Conventional detectors such as YOLO are optimised for standard image sizes (for example, 640x640 pixels) and often struggle with the computational demands of 4K or higher-resolution imagery typical of 360-degree vision. To address these limitations, we introduce YOLO11-4K, an efficient real-time detection framework tailored for 4K panoramic images. The architecture incorporates a novel multi-scale detection head with a P2 layer to improve sensitivity to small objects often missed at coarser scales, and a GhostConv-based backbone to reduce computational complexity without sacrificing representational power. To enable evaluation, we manually annotated the CVIP360 dataset, generating 6,876 frame-level bounding boxes and producing a publicly available, detection-ready benchmark for 4K panoramic scenes. YOLO11-4K achieves 0.95 mAP at 0.50 IoU with 28.3 milliseconds inference per frame, representing a 75 percent latency reduction compared to YOLO11 (112.3 milliseconds), while also improving accuracy (mAP at 0.50 of 0.95 versus 0.908). This balance of efficiency and precision enables robust object detection in expansive 360-degree environments, making the framework suitable for real-world high-resolution panoramic applications. While this work focuses on 4K omnidirectional images, the approach is broadly applicable to high-resolution detection tasks in autonomous navigation, surveillance, and augmented reality.
- Abstract(参考訳): 全方位360度画像の処理は、固有の空間歪み、広い視野、超高解像度入力による物体検出に重大な課題をもたらす。
YOLOのような従来の検出器は標準的な画像サイズ(例えば640x640ピクセル)に最適化されており、4Kや高解像度の高解像度画像の計算要求に悩まされることが多い。
これらの制約に対処するために,4Kパノラマ画像に適したリアルタイム検出フレームワークYOLO11-4Kを導入する。
アーキテクチャには、粗いスケールでしばしば見逃される小さなオブジェクトに対する感度を向上させるために、P2層を備えた新しいマルチスケール検出ヘッドと、表現力を犠牲にすることなく計算複雑性を低減するGhostConvベースのバックボーンが組み込まれている。
評価のために,CVIP360データセットを手動でアノテートし,6,876個のフレームレベルのバウンディングボックスを生成し,4Kパノラマシーンに対して公開かつ検出可能なベンチマークを作成した。
YOLO11-4K は YOLO11 (112.3ミリ秒) に比べて 75% の遅延減少を示し、精度も 0.908 に対して 0.50 の mAP は 0.50 IoU で 0.95 mAP を達成する。
この効率性と精度のバランスは、拡張可能な360度環境における堅牢なオブジェクト検出を可能にし、現実世界の高解像度パノラマアプリケーションに適したフレームワークを提供する。
この研究は4K全方位画像に焦点を当てているが、このアプローチは自律ナビゲーション、監視、拡張現実における高解像度検出タスクに広く適用されている。
関連論文リスト
- 4KAgent: Agentic Any Image to 4K Super-Resolution [62.99433518118836]
我々は、任意の画像を4K解像度にスケールアップするために設計された超高解像度のジェネラリストシステムである4KAgentを提示する。
4KAgentは,(1)ベズークのユースケースに基づいて4KAgentパイプラインをカスタマイズするモジュールであるプロファイリング,(2)画像品質評価の専門家とともに視覚言語モデルを活用して入力画像を分析し,調整された復元計画を作成するパーセプションエージェント,(3)各ステップの最適出力を選択するための品質駆動混合ポリシーに従って計画を実行するリカバリエージェント,の3つのコアコンポーネントから構成される。
われわれは4kagentを厳格に評価する
論文 参考訳(メタデータ) (2025-07-09T17:59:19Z) - HGO-YOLO: Advancing Anomaly Behavior Detection with Hierarchical Features and Lightweight Optimized Detection [0.0]
HGO-YOLOはGhostHGNetv2と最適化されたパラメータ共有ヘッド(OptiConvDetect)を組み合わせた軽量検出器である。
3つの異常データセット上では、HGO-YOLOは87.4%のmAP@0.5と81.1%のリコールを、たった4.3 GFLOPsと4.6MBのYOLOv8nを+3.0% mAP、-51.7% FLOPs、1.7*の速度で1つのCPU上で56 FPSで達成している。
論文 参考訳(メタデータ) (2025-03-10T14:29:12Z) - PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian Splatting [38.47270795377126]
最大4K解像度(2048$times$4096)を効率的にサポートする汎用フィードフォワードアプローチであるPanSplatを提案する。
提案手法は,フィボナッチ格子を配置した球状3次元ガウスピラミッドを特徴とし,情報冗長性を低減しつつ画質を向上させる。
実験により、PanSplatは、合成データセットと実世界のデータセットの両方で、優れた効率と画質を実現することが示された。
論文 参考訳(メタデータ) (2024-12-16T18:59:45Z) - SOD-YOLOv8 -- Enhancing YOLOv8 for Small Object Detection in Traffic Scenes [1.3812010983144802]
Small Object Detection YOLOv8 (SOD-YOLOv8) は、多数の小さなオブジェクトを含むシナリオ用に設計されている。
SOD-YOLOv8は小さなオブジェクト検出を大幅に改善し、様々なメトリクスで広く使われているモデルを上回っている。
ダイナミックな現実世界の交通シーンでは、SOD-YOLOv8は様々な状況で顕著な改善を示した。
論文 参考訳(メタデータ) (2024-08-08T23:05:25Z) - 4K4DGen: Panoramic 4D Generation at 4K Resolution [67.98105958108503]
一つのパノラマを没入的な4D体験に高めるという課題に取り組む。
初めて、4K解像度で360$circ$のビューで全方位動的シーンを生成する能力を実証した。
高品質なパノラマ・ト・4Dを4Kの解像度で初めて実現した。
論文 参考訳(メタデータ) (2024-06-19T13:11:02Z) - 4K4D: Real-Time 4D View Synthesis at 4K Resolution [86.6582179227016]
本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに見ることを目的とする。
ハードウェア化をサポートし,前例のないレンダリング速度を実現する4Dポイントクラウド表現を提案する。
私たちの表現は、1080p解像度のDNAレンダリングデータセットで400 FPS、4090 GPUで4K解像度のENeRF-Outdoorデータセットで80 FPSでレンダリングできます。
論文 参考訳(メタデータ) (2023-10-17T17:57:38Z) - 4K-HAZE: A Dehazing Benchmark with 4K Resolution Hazy and Haze-Free
Images [12.402054374952485]
まず、シーンの深さを推定し、光線とオブジェクトの反射率をシミュレートし、GANを用いて合成画像を実際の領域に移行する。
これらの合成画像を4K-HAZEデータセットと呼ばれるベンチマークにラップする。
このアプローチの最も魅力的な側面は、24G RAMをリアルタイムで(33fps)1つのGPU上で4Kイメージを実行する機能です。
論文 参考訳(メタデータ) (2023-03-28T09:39:29Z) - Learned Two-Plane Perspective Prior based Image Resampling for Efficient
Object Detection [20.886999159134138]
リアルタイムの効率的な認識は、自律的なナビゲーションと都市規模のセンシングに不可欠である。
本研究では,3次元シーンの粗い形状を取り入れた学習可能な幾何学誘導先行手法を提案する。
提案手法は,4.1 $AP_S$ または +39% で検出率を向上し,また,4.3 $sAP_S$ または +63% で検出性能を向上する。
論文 参考訳(メタデータ) (2023-03-25T00:43:44Z) - Fewer is More: Efficient Object Detection in Large Aerial Images [59.683235514193505]
本稿では,検出者がより少ないパッチに注目するのに対して,より効率的な推論とより正確な結果を得るのに役立つObjectness Activation Network(OAN)を提案する。
OANを用いて、5つの検出器は3つの大規模な空中画像データセットで30.0%以上のスピードアップを取得する。
我々はOANをドライブシーン物体検出と4Kビデオ物体検出に拡張し,検出速度をそれぞれ112.1%,75.0%向上させた。
論文 参考訳(メタデータ) (2022-12-26T12:49:47Z) - Towards Efficient and Scale-Robust Ultra-High-Definition Image
Demoireing [71.62289021118983]
本研究では、4Kモアレ画像に対処する効率的なベースラインモデルESDNetを提案する。
我々の手法は、より軽量でありながら、最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-07-20T14:20:52Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。