論文の概要: DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks
- arxiv url: http://arxiv.org/abs/2405.04408v1
- Date: Tue, 7 May 2024 15:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:31:20.828246
- Title: DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks
- Title(参考訳): DocRes: ドキュメントイメージ復元タスクの統合に向けた汎用モデル
- Authors: Jiaxin Zhang, Dezhi Peng, Chongyu Liu, Peirong Zhang, Lianwen Jin,
- Abstract要約: 本稿では,デウォープ,デシェードイング,外観向上,デブロアリング,バイナライゼーションを含む5つの文書画像復元タスクを統一するDocResを提案する。
DocResに異なる復元タスクを指示するために、Dynamic Task-Specific Prompt (DTSPrompt)と呼ばれる新しいビジュアルプロンプトアプローチを提案する。
DTSPromptは、高解像度で可変解像度の入力にシームレスに適用できるため、従来の視覚的プロンプトアプローチよりも柔軟である。
- 参考スコア(独自算出の注目度): 38.6455393290578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document image restoration is a crucial aspect of Document AI systems, as the quality of document images significantly influences the overall performance. Prevailing methods address distinct restoration tasks independently, leading to intricate systems and the incapability to harness the potential synergies of multi-task learning. To overcome this challenge, we propose DocRes, a generalist model that unifies five document image restoration tasks including dewarping, deshadowing, appearance enhancement, deblurring, and binarization. To instruct DocRes to perform various restoration tasks, we propose a novel visual prompt approach called Dynamic Task-Specific Prompt (DTSPrompt). The DTSPrompt for different tasks comprises distinct prior features, which are additional characteristics extracted from the input image. Beyond its role as a cue for task-specific execution, DTSPrompt can also serve as supplementary information to enhance the model's performance. Moreover, DTSPrompt is more flexible than prior visual prompt approaches as it can be seamlessly applied and adapted to inputs with high and variable resolutions. Experimental results demonstrate that DocRes achieves competitive or superior performance compared to existing state-of-the-art task-specific models. This underscores the potential of DocRes across a broader spectrum of document image restoration tasks. The source code is publicly available at https://github.com/ZZZHANG-jx/DocRes
- Abstract(参考訳): 文書画像の品質が全体的なパフォーマンスに大きく影響するため、文書画像復元はドキュメントAIシステムにおいて重要な側面である。
一般的な手法は、個別に異なる復元作業に対処し、複雑なシステムとマルチタスク学習の潜在的なシナジーを利用することができない。
この課題を克服するために,デウォープ,デシェードイング,外観向上,デブロアリング,バイナライゼーションを含む5つの文書画像復元タスクを統一する汎用モデルDocResを提案する。
DocResに様々な復元タスクを指示するために,Dynamic Task-Specific Prompt (DTSPrompt) と呼ばれる新しい視覚的プロンプト手法を提案する。
異なるタスクに対するDTSプロンプトは、入力画像から抽出された付加的な特徴である、異なる事前特徴から構成される。
タスク固有の実行のキューとしての役割に加えて、DTSPromptはモデルのパフォーマンスを高める補助情報としても機能する。
さらに、DTSPromptは、高解像度で可変解像度の入力にシームレスに適用できるため、従来の視覚的プロンプトアプローチよりも柔軟である。
実験の結果,DocResは既存の最先端タスク固有モデルと比較して,競争力や性能に優れていた。
これはドキュメントイメージ復元タスクの幅広い範囲にわたってDocResの可能性を浮き彫りにしている。
ソースコードはhttps://github.com/ZZHANG-jx/DocResで公開されている。
関連論文リスト
- Restorer: Solving Multiple Image Restoration Tasks with One Set of Parameters [3.0713650808646564]
複数の画像復元タスクのための統一的で効果的なソリューションを設計することに注力する。
以上の目的に基づき,U-Netアーキテクチャを用いたTransformer Network Restorerを提案する。
本稿では,Restorerが複数の実世界のイメージ復元タスクのバックボーンとして機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-18T13:18:32Z) - PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。
多様な命令追跡データの欠如は、ユーザカスタマイズ命令を効果的に認識し実行するモデルの開発を妨げている。
PromptFixは、拡散モデルが人間の指示に従って様々な画像処理タスクを実行できるフレームワークである。
論文 参考訳(メタデータ) (2024-05-27T03:13:28Z) - Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration [50.81374327480445]
本稿では, 複雑な画像劣化を基本劣化の観点で表現できる, という新しい概念を提案する。
We propose the Unified-Width Adaptive Dynamic Network (U-WADN) which consist of two pivotal components: a Width Adaptive Backbone (WAB) and a Width Selector (WS)。
提案したU-WADNは、最大32.3%のFLOPを同時に削減し、約15.7%のリアルタイム加速を実現している。
論文 参考訳(メタデータ) (2024-01-24T04:25:12Z) - SPIRE: Semantic Prompt-Driven Image Restoration [66.26165625929747]
セマンティック・復元型画像復元フレームワークであるSPIREを開発した。
本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。
本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
論文 参考訳(メタデータ) (2023-12-18T17:02:30Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the
Frequency Domain for Versatile Document Understanding [98.41782470335032]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - ProRes: Exploring Degradation-aware Visual Prompt for Universal Image
Restoration [46.87227160492818]
本稿では、様々な種類の画像分解を統一的な視覚的プロンプトにエンコードする、分解対応のビジュアルプロンプトを提案する。
これらの劣化認識プロンプトは、画像処理の制御を提供し、カスタマイズされた画像復元のための重み付けの組み合わせを可能にする。
次に画像復元のための制御可能なユニバーサルモデルを確立するために,分解認識型視覚プロンプトを活用する。
論文 参考訳(メタデータ) (2023-06-23T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。