論文の概要: 1st Solution Places for CVPR 2023 UG$^{\textbf{2}}$+ Challenge Track
2.1-Text Recognition through Atmospheric Turbulence
- arxiv url: http://arxiv.org/abs/2306.08963v1
- Date: Thu, 15 Jun 2023 08:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 15:45:29.311254
- Title: 1st Solution Places for CVPR 2023 UG$^{\textbf{2}}$+ Challenge Track
2.1-Text Recognition through Atmospheric Turbulence
- Title(参考訳): 1st solution places for cvpr 2023 ug$^{\textbf{2}}$+ challenge track 2.1-text recognition via atmospheric turbulence (英語)
- Authors: Shengqi Xu, Xueyao Xiao, Shuning Cao, Yi Chang, Luxin Yan
- Abstract要約: CVPR 2023 UG$2$+チャレンジのトラック2.1における大気乱流によるテキスト認識のためのVIELab-HUSTの開発したソリューションを提案する。
本フレームワークは,最終テストフェーズで提供されるホットエアテキストデータセットと乱流テキストデータセットの両方を処理し,テキスト認識精度において第1位を達成した。
- 参考スコア(独自算出の注目度): 13.393698451466689
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this technical report, we present the solution developed by our team
VIELab-HUST for text recognition through atmospheric turbulence in Track 2.1 of
the CVPR 2023 UG$^{2}$+ challenge. Our solution involves an efficient
multi-stage framework that restores a high-quality image from distorted frames.
Specifically, a frame selection algorithm based on sharpness is first utilized
to select the sharpest set of distorted frames. Next, each frame in the
selected frames is aligned to suppress geometric distortion through
optical-flow-based image registration. Then, a region-based image fusion method
with DT-CWT is utilized to mitigate the blur caused by the turbulence. Finally,
a learning-based deartifacts method is applied to remove the artifacts in the
fused image, generating a high-quality outuput. Our framework can handle both
hot-air text dataset and turbulence text dataset provided in the final testing
phase and achieved 1st place in text recognition accuracy. Our code will be
available at https://github.com/xsqhust/Turbulence_Removal.
- Abstract(参考訳): 本稿では,CVPR 2023 UG$^{2}$+チャレンジのトラック2.1における大気乱流によるテキスト認識のためのVIELab-HUSTの開発したソリューションを提案する。
我々のソリューションは、歪んだフレームから高品質な画像を復元する効率的なマルチステージフレームワークを含む。
具体的には、シャープネスに基づくフレーム選択アルゴリズムを用いて、最もシャープな歪んだフレーム群を選択する。
次に、選択したフレーム内の各フレームをアライメントし、光フローベース画像登録による幾何歪みを抑制する。
そして、DT-CWTを用いた領域ベース画像融合法を用いて、乱流によるぼかしを緩和する。
最後に、融合画像中のアーティファクトを除去するために学習ベースのディアティファクト法を適用し、高品質なアウトプットを生成する。
本フレームワークは最終テスト段階で提供されるホットエアテキストデータセットと乱流テキストデータセットの両方を処理でき,テキスト認識精度で1位となった。
私たちのコードはhttps://github.com/xsqhust/turbulence_removalで利用可能です。
関連論文リスト
- Blind Image Deblurring with FFT-ReLU Sparsity Prior [1.179778723980276]
ブラインドイメージデブロアリング(Blind image deblurring)は、ぼやけたカーネルに関する事前知識のないぼやけたイメージからシャープなイメージを復元するプロセスである。
画像の種類を多岐にわたって効果的に劣化させるために,ぼやけたカーネルを対象とする先行処理を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T15:51:39Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image
Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - 1st Solution Places for CVPR 2023 UG$^2$+ Challenge Track 2.2-Coded
Target Restoration through Atmospheric Turbulence [12.484269899245515]
本報告では,CVPR 2023 UG$2$+トラック2.2における大気乱流によるターゲット復元のためのVIELab-HUSTの解について紹介する。
歪んだフレームから高品質な画像を復元するための効率的な多段階フレームワークを提案する。
我々のフレームワークは、最終テストフェーズで提供されるさまざまな種類のコード化されたターゲットデータセットを処理でき、最終リーダーボードで1位にランクインしています。
論文 参考訳(メタデータ) (2023-06-15T09:06:48Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Parallax-Tolerant Unsupervised Deep Image Stitching [57.76737888499145]
本稿では,パララックス耐性の非教師あり深層画像縫合技術であるUDIS++を提案する。
まず,グローバルなホモグラフィから局所的な薄板スプライン運動への画像登録をモデル化するための,頑健で柔軟なワープを提案する。
本研究では, 縫合された画像をシームレスに合成し, シーム駆動合成マスクの教師なし学習を行うことを提案する。
論文 参考訳(メタデータ) (2023-02-16T10:40:55Z) - Let's Enhance: A Deep Learning Approach to Extreme Deblurring of Text
Images [3.441021278275805]
本研究は,画像劣化の逆問題に対する,ディープラーニングに基づく新しいパイプラインを提案する。
我々の結果は、最新の最先端のデブロアリングアルゴリズムの限界を探求することを目的とした、最近のヘルシンキのデブロアリングチャレンジ2021への私たちの勝利を基盤にしています。
論文 参考訳(メタデータ) (2022-11-18T09:06:56Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。