論文の概要: Task-driven single-image super-resolution reconstruction of document scans
- arxiv url: http://arxiv.org/abs/2407.08993v1
- Date: Fri, 12 Jul 2024 05:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 00:36:46.143585
- Title: Task-driven single-image super-resolution reconstruction of document scans
- Title(参考訳): タスク駆動型単一画像による文書スキャンの超解像再構成
- Authors: Maciej Zyrek, Michal Kawulok,
- Abstract要約: 文書スキャンから光学的文字認識を改善するために,超解像を前処理ステップとして活用する可能性を検討する。
そこで本研究では,単一画像の超解像のための深層ネットワークをタスク駆動方式で訓練し,テキスト検出のための適応性を高めることを提案する。
- 参考スコア(独自算出の注目度): 2.8391355909797644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Super-resolution reconstruction is aimed at generating images of high spatial resolution from low-resolution observations. State-of-the-art super-resolution techniques underpinned with deep learning allow for obtaining results of outstanding visual quality, but it is seldom verified whether they constitute a valuable source for specific computer vision applications. In this paper, we investigate the possibility of employing super-resolution as a preprocessing step to improve optical character recognition from document scans. To achieve that, we propose to train deep networks for single-image super-resolution in a task-driven way to make them better adapted for the purpose of text detection. As problems limited to a specific task are heavily ill-posed, we introduce a multi-task loss function that embraces components related with text detection coupled with those guided by image similarity. The obtained results reported in this paper are encouraging and they constitute an important step towards real-world super-resolution of document images.
- Abstract(参考訳): 超分解能再構成は、低分解能観測から高分解能の画像を生成することを目的としている。
ディープラーニングに根ざした最先端の超解像技術は、目立った視覚的品質の結果を得ることができるが、それらが特定のコンピュータビジョンアプリケーションにとって貴重な情報源であるかどうかはほとんど検証されていない。
本稿では,文書スキャンから光学的文字認識を改善するために,超解像を前処理ステップとして活用する可能性を検討する。
そこで本研究では,単一画像の超解像のための深層ネットワークをタスク駆動方式で訓練し,テキスト検出のための適応性を高めることを提案する。
特定のタスクに限られる問題は重大な欠陥があるため、画像類似性によって導かれるテキスト検出に関連するコンポーネントを取り入れたマルチタスク損失関数を導入する。
本稿では,文書画像のリアルタイム超解像化に向けた重要なステップであることを示す。
関連論文リスト
- Reconstructing Interpretable Features in Computational Super-Resolution microscopy via Regularized Latent Search [2.7194314957925094]
改良されたディープラーニングアプローチは、2つの画像解像度またはモダリティ間のマッピングを学習することで、顕微鏡画像の解像度を人工的に向上させることができる。
GAN潜時探索に基づく最近の手法では、ペア画像を必要としない解像度が大幅に向上した。
本稿では,正則化潜在探索(RLS)に基づく高分解能超解法を提案する。
論文 参考訳(メタデータ) (2024-05-29T14:20:46Z) - Ground-A-Score: Scaling Up the Score Distillation for Multi-Attribute Editing [49.419619882284906]
Ground-A-Scoreは、スコア蒸留時のグラウンド処理を取り入れた強力なモデル非依存画像編集法である。
新しいペナルティ係数とコントラスト損失を持つ選択的応用は、編集領域を正確にターゲットするのに役立つ。
質的評価と定量的分析の両方で、Ground-A-Scoreは拡張および多面的プロンプトの複雑な詳細に順応することを確認した。
論文 参考訳(メタデータ) (2024-03-20T12:40:32Z) - Super-Resolving Face Image by Facial Parsing Information [52.1267613768555]
顔超解像は、低解像度の顔画像を対応する高解像度の画像に変換する技術である。
我々は,低解像度の顔画像から先行する顔を抽出する,新しい解析マップ付き顔超解像ネットワークを構築した。
高解像度特徴はより正確な空間情報を含み、低解像度特徴は強い文脈情報を提供する。
論文 参考訳(メタデータ) (2023-04-06T08:19:03Z) - Cross-resolution Face Recognition via Identity-Preserving Network and
Knowledge Distillation [12.090322373964124]
クロスレゾリューション顔認識は、現代の深層顔認識システムにとって難しい問題である。
本稿では,低分解能画像の低周波成分に蓄積される識別情報にネットワークを集中させる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-15T14:52:46Z) - Rethinking Super-Resolution as Text-Guided Details Generation [21.695227836312835]
テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
論文 参考訳(メタデータ) (2022-07-14T01:46:38Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - HIME: Efficient Headshot Image Super-Resolution with Multiple Exemplars [11.81364643562714]
本稿では,HIME(Multiple Exemplars Network)法を用いた高効率なヘッドショット画像超解法を提案する。
従来の手法と比較して,我々のネットワークは入力と参照のミスアライメントを効果的に処理できる。
また、制御可能な空間範囲における局所的なテクスチャのリッチな表現を提供する相関損失を提案する。
論文 参考訳(メタデータ) (2022-03-28T16:13:28Z) - Multi Scale Identity-Preserving Image-to-Image Translation Network for
Low-Resolution Face Recognition [7.6702700993064115]
本稿では,画像から画像へ変換する深層ニューラルネットワークを提案する。
アイデンティティ関連の情報を保存しながら、非常に低解像度の顔を高解像度の顔に超解き放つことができる。
論文 参考訳(メタデータ) (2020-10-23T09:21:06Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Gated Fusion Network for Degraded Image Super Resolution [78.67168802945069]
本稿では,基本特徴と回復特徴を別々に抽出する二分岐畳み込みニューラルネットワークを提案する。
特徴抽出ステップを2つのタスク非依存ストリームに分解することで、デュアルブランチモデルがトレーニングプロセスを容易にすることができる。
論文 参考訳(メタデータ) (2020-03-02T13:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。