論文の概要: A Framework for Real-time Object Detection and Image Restoration
- arxiv url: http://arxiv.org/abs/2303.09190v1
- Date: Thu, 16 Mar 2023 10:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:09:45.676901
- Title: A Framework for Real-time Object Detection and Image Restoration
- Title(参考訳): リアルタイム物体検出と画像復元のためのフレームワーク
- Authors: Rui-Yang Ju, Chih-Chia Chen, Jen-Shiun Chiang, Yu-Shian Lin, Wei-Han
Chen
- Abstract要約: 物体検出と画像復元のための2段階フレームワークを提案する。
第1ステージでは、YOLOシリーズアルゴリズムを使用してオブジェクト検出を完了し、画像トリミングを行う。
第二段階では、この研究はSwin Transformerを改善し、新しいアルゴリズムを使ってSwin Transformer層を接続し、新しいニューラルネットワークアーキテクチャを設計する。
- 参考スコア(独自算出の注目度): 1.684937603700545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection and single image super-resolution are classic problems in
computer vision (CV). The object detection task aims to recognize the objects
in input images, while the image restoration task aims to reconstruct high
quality images from given low quality images. In this paper, a two-stage
framework for object detection and image restoration is proposed. The first
stage uses YOLO series algorithms to complete the object detection and then
performs image cropping. In the second stage, this work improves Swin
Transformer and uses the new proposed algorithm to connect the Swin Transformer
layer to design a new neural network architecture. We name the newly proposed
network for image restoration SwinOIR. This work compares the model performance
of different versions of YOLO detection algorithms on MS COCO dataset and
Pascal VOC dataset, demonstrating the suitability of different YOLO network
models for the first stage of the framework in different scenarios. For image
super-resolution task, it compares the model performance of using different
methods of connecting Swin Transformer layers and design different sizes of
SwinOIR for use in different life scenarios. Our implementation code is
released at https://github.com/Rubbbbbbbbby/SwinOIR.
- Abstract(参考訳): 物体検出と単一画像超解像はコンピュータビジョン(CV)の古典的な問題である。
オブジェクト検出タスクは入力画像中のオブジェクトを認識することを目的としており、画像復元タスクは与えられた低品質画像から高品質な画像を再構築することを目的としている。
本稿では,物体検出と画像復元のための2段階フレームワークを提案する。
第1ステージでは、YOLOシリーズアルゴリズムを使用してオブジェクト検出を完了し、画像トリミングを行う。
第二段階では、この研究はSwin Transformerを改善し、新しいアルゴリズムを使ってSwin Transformer層を接続し、新しいニューラルネットワークアーキテクチャを設計する。
新たに提案する画像復元ネットワークをswinoirと呼ぶ。
この研究は、MS COCOデータセットとPascal VOCデータセットの異なるバージョンのYOLO検出アルゴリズムのモデル性能を比較し、異なるシナリオでフレームワークの第1段階で異なるYOLOネットワークモデルの適合性を実証する。
イメージ超解像度タスクでは、Swin Transformerレイヤを接続し、異なるライフサイクルシナリオで使用するSwinOIRの異なるサイズを設計するさまざまな方法を使用するモデルパフォーマンスを比較する。
実装コードはhttps://github.com/rubbbbbbby/swinoirでリリースしています。
関連論文リスト
- Scene Change Detection Using Multiscale Cascade Residual Convolutional
Neural Networks [0.0]
シーン変化検出は、デジタル画像の画素を前景と背景領域に分割する処理問題である。
本研究では,Residual Processing Moduleを統合した畳み込みニューラルネットワークを用いた新しいマルチスケールResidual Processing Moduleを提案する。
2つの異なるデータセットで実施された実験は、提案手法の全体的な有効性をサポートし、それぞれが$boldsymbol0.9622$と$boldsymbol0.9664$ over Change Detection 2014とPetrobrasROUTESデータセットの全体的な有効性を達成する。
論文 参考訳(メタデータ) (2022-12-20T16:48:51Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - Unsupervised Industrial Anomaly Detection via Pattern Generative and
Contrastive Networks [8.476686092919596]
本稿では,視覚変換器を用いた教師なし異常検出ネットワークを提案する。
階層的なタスク学習と人間の経験を利用して、その解釈可能性を高めます。
従来の最先端手法を超越した99.8%のAUCを実現した。
論文 参考訳(メタデータ) (2022-07-20T10:09:53Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - Unsupervised Layered Image Decomposition into Object Prototypes [39.20333694585477]
自動検出対象モデルの層に画像を分解するための教師なし学習フレームワークを提案する。
我々はまず,標準マルチオブジェクト合成ベンチマークにおける技術状況と同等の結果を提供することで,我々のアプローチを検証した。
次に、クラスタリング(SVHN、GTSRB)、コセグメンテーション(Weizmann Horse)、フィルタされていないソーシャルネットワークイメージからのオブジェクト発見を含むタスクにおける実画像へのモデルの適用性を示す。
論文 参考訳(メタデータ) (2021-04-29T18:02:01Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。