論文の概要: Uni-DocDiff: A Unified Document Restoration Model Based on Diffusion
- arxiv url: http://arxiv.org/abs/2508.04055v1
- Date: Wed, 06 Aug 2025 03:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.530136
- Title: Uni-DocDiff: A Unified Document Restoration Model Based on Diffusion
- Title(参考訳): Uni-DocDiff:拡散に基づく統一文書復元モデル
- Authors: Fangmin Zhao, Weichao Zeng, Zhenhang Li, Dongbao Yang, Binbin Li, Xiaojun Bi, Yu Zhou,
- Abstract要約: 拡散に基づく統一かつ高度にスケーラブルな文書復元モデルであるUni-DocDiffを提案する。
Uni-DocDiffは学習可能なタスクプロンプト設計を開発し、多様なタスクにまたがる優れたスケーラビリティを保証する。
textbfPrior textbfPoolは、ローカルな高周波特徴とグローバルな低周波特徴を組み合わせた、シンプルで包括的なメカニズムである。
- 参考スコア(独自算出の注目度): 7.1593100791258335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Removing various degradations from damaged documents greatly benefits digitization, downstream document analysis, and readability. Previous methods often treat each restoration task independently with dedicated models, leading to a cumbersome and highly complex document processing system. Although recent studies attempt to unify multiple tasks, they often suffer from limited scalability due to handcrafted prompts and heavy preprocessing, and fail to fully exploit inter-task synergy within a shared architecture. To address the aforementioned challenges, we propose Uni-DocDiff, a Unified and highly scalable Document restoration model based on Diffusion. Uni-DocDiff develops a learnable task prompt design, ensuring exceptional scalability across diverse tasks. To further enhance its multi-task capabilities and address potential task interference, we devise a novel \textbf{Prior \textbf{P}ool}, a simple yet comprehensive mechanism that combines both local high-frequency features and global low-frequency features. Additionally, we design the \textbf{Prior \textbf{F}usion \textbf{M}odule (PFM)}, which enables the model to adaptively select the most relevant prior information for each specific task. Extensive experiments show that the versatile Uni-DocDiff achieves performance comparable or even superior performance compared with task-specific expert models, and simultaneously holds the task scalability for seamless adaptation to new tasks.
- Abstract(参考訳): 破損した文書から様々な劣化を除去することは、デジタル化、下流の文書分析、可読性に大きく貢献する。
従来の手法では、各復元タスクを専用モデルと独立に扱うことが多く、面倒で複雑な文書処理システムに繋がる。
近年の研究は複数のタスクを統一しようとするが、手作りのプロンプトや重い前処理によるスケーラビリティの限界に悩まされ、共有アーキテクチャ内でタスク間シナジーを完全に活用することができなかった。
上記の課題に対処するため,Uni-DocDiffを提案する。
Uni-DocDiffは学習可能なタスクプロンプト設計を開発し、多様なタスクにまたがる優れたスケーラビリティを保証する。
マルチタスク機能をさらに強化し,潜在的なタスク干渉に対処するため,ローカルな高周波特徴とグローバルな低周波特徴を組み合わせた,シンプルかつ包括的な機構である,新しい \textbf{Prior \textbf{P}ool} を考案した。
さらに,各タスクに対して最も関連性の高い事前情報を適応的に選択できる「textbf{Prior \textbf{F}usion \textbf{M}odule (PFM)}」を設計する。
汎用的なUni-DocDiffは、タスク固有のエキスパートモデルと同等またはそれ以上のパフォーマンスを実現し、新しいタスクにシームレスに適応するためのタスクスケーラビリティを同時に保持している。
関連論文リスト
- Towards Unified Modeling in Federated Multi-Task Learning via Subspace Decoupling [23.642760378344335]
Federated Multi-Task Learning (FMTL) は、複数のクライアントがローカルデータを交換することなく異種タスクを実行できる。
既存のFMTLメソッドのほとんどは、各クライアント用にパーソナライズされたモデルを構築することに集中しており、複数の異種タスクの集約を統一モデルにサポートできない。
マルチタスクモデル統合に特化して設計された更新構造対応アグリゲーション手法であるFedDEAを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:53:21Z) - DocFusion: A Unified Framework for Document Parsing Tasks [22.916911092946897]
DocFusionは0.28Bパラメータしか持たない軽量な生成モデルである。
タスク表現を統一し、改善された目的関数を通して協調訓練を行う。
論文 参考訳(メタデータ) (2024-12-17T03:20:00Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Lifelong Learning with Searchable Extension Units [21.17631355880764]
本稿では,検索可能拡張ユニット(SEU)という生涯学習フレームワークを提案する。
これは、事前に定義されたオリジナルのモデルの必要性を断ち切り、異なるタスクのための特定の拡張ユニットを検索する。
我々のアプローチは、破滅的な忘れることなく、はるかにコンパクトなモデルを得ることができる。
論文 参考訳(メタデータ) (2020-03-19T03:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。