論文の概要: Task-driven real-world super-resolution of document scans
- arxiv url: http://arxiv.org/abs/2506.06953v1
- Date: Sun, 08 Jun 2025 00:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.582477
- Title: Task-driven real-world super-resolution of document scans
- Title(参考訳): タスク駆動型実世界の文書スキャンの超解像
- Authors: Maciej Zyrek, Tomasz Tarasiewicz, Jakub Sadel, Aleksandra Krzywon, Michal Kawulok,
- Abstract要約: シングルイメージ超解像(英: Single-image Super- resolution)とは、単一の低分解能観測から高分解能画像の再構成を指す。
光文字認識タスクに最適化された超高解像度ネットワークをトレーニングするためのタスク駆動型マルチタスク学習フレームワークを提案する。
SRResNetアーキテクチャに対する我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 41.61731067095584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-image super-resolution refers to the reconstruction of a high-resolution image from a single low-resolution observation. Although recent deep learning-based methods have demonstrated notable success on simulated datasets -- with low-resolution images obtained by degrading and downsampling high-resolution ones -- they frequently fail to generalize to real-world settings, such as document scans, which are affected by complex degradations and semantic variability. In this study, we introduce a task-driven, multi-task learning framework for training a super-resolution network specifically optimized for optical character recognition tasks. We propose to incorporate auxiliary loss functions derived from high-level vision tasks, including text detection using the connectionist text proposal network, text recognition via a convolutional recurrent neural network, keypoints localization using Key.Net, and hue consistency. To balance these diverse objectives, we employ dynamic weight averaging mechanism, which adaptively adjusts the relative importance of each loss term based on its convergence behavior. We validate our approach upon the SRResNet architecture, which is a well-established technique for single-image super-resolution. Experimental evaluations on both simulated and real-world scanned document datasets demonstrate that the proposed approach improves text detection, measured with intersection over union, while preserving overall image fidelity. These findings underscore the value of multi-objective optimization in super-resolution models for bridging the gap between simulated training regimes and practical deployment in real-world scenarios.
- Abstract(参考訳): シングルイメージ超解像(英: Single-image Super- resolution)とは、単一の低分解能観測から高分解能画像の再構成を指す。
最近のディープラーニングベースの手法は、シミュレートされたデータセット(高解像度のデータセットを分解してダウンサンプリングすることで得られる低解像度のイメージ)で顕著な成功を収めているが、複雑な劣化とセマンティック変数の影響を受けやすいドキュメントスキャンなどの現実的な設定に一般化できないことがしばしばある。
本研究では,光学的文字認識タスクに特化して最適化された超解像ネットワークを学習するためのタスク駆動型マルチタスク学習フレームワークを提案する。
本稿では、コネクショニストテキスト提案ネットワークを用いたテキスト検出、畳み込みリカレントニューラルネットワークによるテキスト認識、Key.Netを用いたキーポイントローカライゼーション、色相整合など、高レベルの視覚タスクに由来する補助的損失関数を統合することを提案する。
これらの多様な目的のバランスをとるために,各損失項の相対的重要性を,その収束挙動に基づいて適応的に調整する動的ウェイト平均化機構を用いる。
SRResNetアーキテクチャに対する我々のアプローチを検証する。
シミュレーションおよび実世界の文書データセットを用いた実験により,提案手法は画像の忠実さを保ちながら,結合を交互に測定してテキスト検出を改善することを示した。
これらの結果は,シミュレーション学習体制と実世界のシナリオにおける実践的展開のギャップを埋めるための超解像モデルにおける多目的最適化の価値を裏付けるものである。
関連論文リスト
- Task-driven single-image super-resolution reconstruction of document scans [2.8391355909797644]
文書スキャンから光学的文字認識を改善するために,超解像を前処理ステップとして活用する可能性を検討する。
そこで本研究では,単一画像の超解像のための深層ネットワークをタスク駆動方式で訓練し,テキスト検出のための適応性を高めることを提案する。
論文 参考訳(メタデータ) (2024-07-12T05:18:26Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z) - Cross-resolution Face Recognition via Identity-Preserving Network and
Knowledge Distillation [12.090322373964124]
クロスレゾリューション顔認識は、現代の深層顔認識システムにとって難しい問題である。
本稿では,低分解能画像の低周波成分に蓄積される識別情報にネットワークを集中させる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-15T14:52:46Z) - Real-World Image Super-Resolution by Exclusionary Dual-Learning [98.36096041099906]
実世界の画像超解像は,高品質な画像を得るための実用的な画像復元問題である。
深層学習に基づく手法は、現実世界の超解像データセットの復元に期待できる品質を実現している。
本稿では,RWSR-EDL(Real-World Image Super-Resolution by Exclusionary Dual-Learning)を提案する。
論文 参考訳(メタデータ) (2022-06-06T13:28:15Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。