論文の概要: Octave-YOLO: Cross frequency detection network with octave convolution
- arxiv url: http://arxiv.org/abs/2407.19746v1
- Date: Mon, 29 Jul 2024 07:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:56:26.204143
- Title: Octave-YOLO: Cross frequency detection network with octave convolution
- Title(参考訳): オクターブ・ヨロ:オクターブ畳み込みを用いたクロス周波数検出ネットワーク
- Authors: Sangjune Shin, Dongkun Shin,
- Abstract要約: Octave-YOLOは組み込みシステムの制約内で高解像度画像をリアルタイムに処理するように設計されている。
結果: 1080x1080 の解像度では、Ocave-YOLO-N は YOLOv8 の 1.56 倍の速度である。
- 参考スコア(独自算出の注目度): 1.6114012813668932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid advancement of object detection algorithms, processing high-resolution images on embedded devices remains a significant challenge. Theoretically, the fully convolutional network architecture used in current real-time object detectors can handle all input resolutions. However, the substantial computational demands required to process high-resolution images render them impractical for real-time applications. To address this issue, real-time object detection models typically downsample the input image for inference, leading to a loss of detail and decreased accuracy. In response, we developed Octave-YOLO, designed to process high-resolution images in real-time within the constraints of embedded systems. We achieved this through the introduction of the cross frequency partial network (CFPNet), which divides the input feature map into low-resolution, low-frequency, and high-resolution, high-frequency sections. This configuration enables complex operations such as convolution bottlenecks and self-attention to be conducted exclusively on low-resolution feature maps while simultaneously preserving the details in high-resolution maps. Notably, this approach not only dramatically reduces the computational demands of convolution tasks but also allows for the integration of attention modules, which are typically challenging to implement in real-time applications, with minimal additional cost. Additionally, we have incorporated depthwise separable convolution into the core building blocks and downsampling layers to further decrease latency. Experimental results have shown that Octave-YOLO matches the performance of YOLOv8 while significantly reducing computational demands. For example, in 1080x1080 resolution, Octave-YOLO-N is 1.56 times faster than YOLOv8, achieving nearly the same accuracy on the COCO dataset with approximately 40 percent fewer parameters and FLOPs.
- Abstract(参考訳): オブジェクト検出アルゴリズムの急速な進歩にもかかわらず、組み込みデバイス上で高解像度の画像を処理することは依然として大きな課題である。
理論的には、現在のリアルタイムオブジェクト検出器で使用される完全な畳み込みネットワークアーキテクチャは、全ての入力解像度を処理できる。
しかし、高解像度画像の処理に必要なかなりの計算要求により、リアルタイムアプリケーションでは現実的ではない。
この問題に対処するため、リアルタイムオブジェクト検出モデルは通常、入力画像の推論をダウンサンプルし、詳細が失われ、精度が低下する。
そこで我々は,組込みシステムの制約下で高解像度画像をリアルタイムに処理するOcave-YOLOを開発した。
我々は、入力特徴マップを低分解能、低周波数、高分解能、高周波数に分割するクロス周波数部分ネットワーク(CFPNet)を導入することでこれを達成した。
この構成により、畳み込みボトルネックや自己注意のような複雑な操作を、高解像度の地図で詳細を同時に保存しながら、低解像度の特徴写像でのみ行うことができる。
特に、このアプローチは畳み込みタスクの計算要求を劇的に削減するだけでなく、注意モジュールの統合を可能にする。
さらに、コアビルディングブロックとダウンサンプリング層に深く分離可能な畳み込みを組み込んで、レイテンシをさらに削減しました。
実験の結果,Ocave-YOLO は YOLOv8 の性能とよく一致し,計算要求を大幅に低減した。
例えば1080x1080の解像度では、Ocave-YOLO-NはYOLOv8の1.56倍の速度であり、約40%のパラメータとFLOPを持つCOデータセットでほぼ同じ精度を実現している。
関連論文リスト
- Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector [0.0]
本研究は, YOLOv9オブジェクト検出モデルに焦点をあて, アーキテクチャの革新, トレーニング方法論, 性能改善に焦点をあてる。
汎用高効率層集約ネットワークGELANやProgrammable Gradient Information PGIといった重要な進歩は、特徴抽出と勾配流を著しく向上させる。
本稿では, YOLOv9の内部特徴とその実世界の応用性について, リアルタイム物体検出の最先端技術として確立した。
論文 参考訳(メタデータ) (2024-09-12T07:46:58Z) - Event-Stream Super Resolution using Sigma-Delta Neural Network [0.10923877073891444]
イベントカメラは、それらが収集するデータの低解像度で疎結合で非同期な性質のため、ユニークな課題を示す。
現在のイベント超解像アルゴリズムは、イベントカメラによって生成された異なるデータ構造に対して完全に最適化されていない。
バイナリスパイクをSigma Delta Neural Networks(SDNNs)と統合する手法を提案する
論文 参考訳(メタデータ) (2024-08-13T15:25:18Z) - Sparse Refinement for Efficient High-Resolution Semantic Segmentation [40.243181997916615]
SparseRefineは、スパース高精細化を伴う密度の低分解能予測を強化する。
既存のセマンティックセグメンテーションモデルにシームレスに統合することができる。
HRNet-W48、SegFormer-B5、Mask2Former-T/L、SegNeXt-Lに1.5から3.7倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-07-26T18:00:09Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。