論文の概要: A Framework for Real-time Object Detection and Image Restoration
- arxiv url: http://arxiv.org/abs/2303.09190v1
- Date: Thu, 16 Mar 2023 10:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:09:45.676901
- Title: A Framework for Real-time Object Detection and Image Restoration
- Title(参考訳): リアルタイム物体検出と画像復元のためのフレームワーク
- Authors: Rui-Yang Ju, Chih-Chia Chen, Jen-Shiun Chiang, Yu-Shian Lin, Wei-Han
Chen
- Abstract要約: 物体検出と画像復元のための2段階フレームワークを提案する。
第1ステージでは、YOLOシリーズアルゴリズムを使用してオブジェクト検出を完了し、画像トリミングを行う。
第二段階では、この研究はSwin Transformerを改善し、新しいアルゴリズムを使ってSwin Transformer層を接続し、新しいニューラルネットワークアーキテクチャを設計する。
- 参考スコア(独自算出の注目度): 1.684937603700545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection and single image super-resolution are classic problems in
computer vision (CV). The object detection task aims to recognize the objects
in input images, while the image restoration task aims to reconstruct high
quality images from given low quality images. In this paper, a two-stage
framework for object detection and image restoration is proposed. The first
stage uses YOLO series algorithms to complete the object detection and then
performs image cropping. In the second stage, this work improves Swin
Transformer and uses the new proposed algorithm to connect the Swin Transformer
layer to design a new neural network architecture. We name the newly proposed
network for image restoration SwinOIR. This work compares the model performance
of different versions of YOLO detection algorithms on MS COCO dataset and
Pascal VOC dataset, demonstrating the suitability of different YOLO network
models for the first stage of the framework in different scenarios. For image
super-resolution task, it compares the model performance of using different
methods of connecting Swin Transformer layers and design different sizes of
SwinOIR for use in different life scenarios. Our implementation code is
released at https://github.com/Rubbbbbbbbby/SwinOIR.
- Abstract(参考訳): 物体検出と単一画像超解像はコンピュータビジョン(CV)の古典的な問題である。
オブジェクト検出タスクは入力画像中のオブジェクトを認識することを目的としており、画像復元タスクは与えられた低品質画像から高品質な画像を再構築することを目的としている。
本稿では,物体検出と画像復元のための2段階フレームワークを提案する。
第1ステージでは、YOLOシリーズアルゴリズムを使用してオブジェクト検出を完了し、画像トリミングを行う。
第二段階では、この研究はSwin Transformerを改善し、新しいアルゴリズムを使ってSwin Transformer層を接続し、新しいニューラルネットワークアーキテクチャを設計する。
新たに提案する画像復元ネットワークをswinoirと呼ぶ。
この研究は、MS COCOデータセットとPascal VOCデータセットの異なるバージョンのYOLO検出アルゴリズムのモデル性能を比較し、異なるシナリオでフレームワークの第1段階で異なるYOLOネットワークモデルの適合性を実証する。
イメージ超解像度タスクでは、Swin Transformerレイヤを接続し、異なるライフサイクルシナリオで使用するSwinOIRの異なるサイズを設計するさまざまな方法を使用するモデルパフォーマンスを比較する。
実装コードはhttps://github.com/rubbbbbbby/swinoirでリリースしています。
関連論文リスト
- Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Degradation-Aware Self-Attention Based Transformer for Blind Image
Super-Resolution [23.336576280389608]
本稿では,入力画像の劣化表現を未知の雑音で学習する自己認識型トランスフォーマモデルを提案する。
提案したモデルを,テスト用の大規模ベンチマークデータセットに適用し,最先端のパフォーマンスを実現する。
提案手法では,Urban100データセットのPSNRが32.43dB,DASRより0.94dB,KDSRより26.62dB,KDSRより0.26dB向上した。
論文 参考訳(メタデータ) (2023-10-06T11:52:31Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - Combining Attention Module and Pixel Shuffle for License Plate
Super-Resolution [3.8831062015253055]
本研究は,低解像度・低画質画像におけるライセンスプレート(LP)再構成に焦点を当てた。
本稿では、注目/変圧器モジュールの概念を拡張したシングルイメージ超解法(SISR)アプローチを提案する。
実験では, 提案手法は, 定量的および定性的に, ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-30T13:05:07Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z) - Radon cumulative distribution transform subspace modeling for image
classification [18.709734704950804]
画像変形モデルの幅広いクラスに適用可能な新しい教師付き画像分類法を提案する。
この方法は、画像データに先述のRandon Cumulative Distribution Transform(R-CDT)を用いる。
テスト精度の向上に加えて,計算効率の向上も示す。
論文 参考訳(メタデータ) (2020-04-07T19:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。