論文の概要: GL-PGENet: A Parameterized Generation Framework for Robust Document Image Enhancement
- arxiv url: http://arxiv.org/abs/2505.22021v1
- Date: Wed, 28 May 2025 06:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.447683
- Title: GL-PGENet: A Parameterized Generation Framework for Robust Document Image Enhancement
- Title(参考訳): GL-PGENet:ロバスト文書画像強調のためのパラメータ生成フレームワーク
- Authors: Zhihong Tang, Yang Li,
- Abstract要約: ドキュメント画像強調(DIE)は、ドキュメントAIシステムにおいて重要なコンポーネントであり、そのパフォーマンスが下流タスクの有効性を決定する。
マルチ劣化カラー文書画像のための新しいアーキテクチャであるGlobal with Local Parametric Generation Enhancement Network (GL-PGENet)について述べる。
- 参考スコア(独自算出の注目度): 2.615648035076649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document Image Enhancement (DIE) serves as a critical component in Document AI systems, where its performance substantially determines the effectiveness of downstream tasks. To address the limitations of existing methods confined to single-degradation restoration or grayscale image processing, we present Global with Local Parametric Generation Enhancement Network (GL-PGENet), a novel architecture designed for multi-degraded color document images, ensuring both efficiency and robustness in real-world scenarios. Our solution incorporates three key innovations: First, a hierarchical enhancement framework that integrates global appearance correction with local refinement, enabling coarse-to-fine quality improvement. Second, a Dual-Branch Local-Refine Network with parametric generation mechanisms that replaces conventional direct prediction, producing enhanced outputs through learned intermediate parametric representations rather than pixel-wise mapping. This approach enhances local consistency while improving model generalization. Finally, a modified NestUNet architecture incorporating dense block to effectively fuse low-level pixel features and high-level semantic features, specifically adapted for document image characteristics. In addition, to enhance generalization performance, we adopt a two-stage training strategy: large-scale pretraining on a synthetic dataset of 500,000+ samples followed by task-specific fine-tuning. Extensive experiments demonstrate the superiority of GL-PGENet, achieving state-of-the-art SSIM scores of 0.7721 on DocUNet and 0.9480 on RealDAE. The model also exhibits remarkable cross-domain adaptability and maintains computational efficiency for high-resolution images without performance degradation, confirming its practical utility in real-world scenarios.
- Abstract(参考訳): ドキュメント画像強調(DIE)は、ドキュメントAIシステムにおいて重要なコンポーネントであり、そのパフォーマンスが下流タスクの有効性を実質的に決定する。
局所的パラメトリック生成拡張ネットワーク(GL-PGENet)は,マルチデグレッシブなカラー文書画像のための新しいアーキテクチャであり,実世界のシナリオにおいて効率性と堅牢性を確保する。
まず、グローバルな外観補正と局所的な改善を統合し、粗い品質改善を可能にする階層的な拡張フレームワークです。
第2に、従来の直接予測に取って代わるパラメトリック生成機構を備えたデュアルブランチローカルリファインネットワークにおいて、画素ワイドマッピングではなく、学習した中間パラメトリック表現を通じて出力を増強する。
このアプローチはモデルの一般化を改善しながら局所的な一貫性を高める。
最後に、高密度ブロックを組み込んだNestUNetアーキテクチャを改良し、特に文書画像の特徴に適応した低レベルのピクセル特徴と高レベルのセマンティック特徴を効果的に融合させた。
さらに、一般化性能を向上させるために、50,000以上のサンプルの合成データセット上で大規模事前学習を行い、タスク固有の微調整を行う2段階のトレーニング戦略を採用した。
大規模な実験はGL-PGENetの優位性を示し、DocUNetで0.7721、RealDAEで0.9480という最先端のSSIMスコアを達成した。
また、ドメイン間適応性も優れており、性能劣化のない高解像度画像の計算効率を保ち、実世界のシナリオにおける実用性を確認している。
関連論文リスト
- Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-11T11:13:10Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。
Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。
7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文 参考訳(メタデータ) (2024-11-27T18:30:08Z) - High-Resolution Image Synthesis via Next-Token Prediction [19.97037318862443]
連続トークンに基づく自己回帰モデルである textbfD-JEPA$cdot$T2I を導入し、任意の解像度で高品質なフォトリアリスティック画像を最大4Kで生成する。
次世代の予測により,最先端の高精細画像合成を実現する。
論文 参考訳(メタデータ) (2024-11-22T09:08:58Z) - Restore Anything Model via Efficient Degradation Adaptation [129.38475243424563]
RAMは、様々な劣化にまたがる固有の類似性を活用して、効率的で包括的な復元を可能にする統一された経路を取る。
RAMのSOTA性能はRAMのSOTA性能を確認し、トレーニング可能なパラメータで約82%、FLOPで約85%のモデルの複雑さを減少させる。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - Efficient and Degradation-Adaptive Network for Real-World Image
Super-Resolution [28.00231586840797]
実世界の画像超解像(Real-ISR)は、実世界の画像の未知の複雑な劣化のために難しい課題である。
近年のReal-ISRの研究は、画像劣化空間をモデル化することによって大きな進歩を遂げている。
本稿では,各入力画像の劣化を推定してパラメータを適応的に指定する,効率的な劣化適応型超解像ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-27T05:59:13Z) - Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。
本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-30T14:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。