論文の概要: Document Layout Analysis via Dynamic Residual Feature Fusion
- arxiv url: http://arxiv.org/abs/2104.02874v1
- Date: Wed, 7 Apr 2021 02:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 23:30:36.042185
- Title: Document Layout Analysis via Dynamic Residual Feature Fusion
- Title(参考訳): 動的特徴融合による文書レイアウト解析
- Authors: Xingjiao Wu, Ziling Hu, Xiangcheng Du, Jing Yang, Liang He
- Abstract要約: 文書レイアウト分析(DLA)は、文書イメージを異なる関心領域に分割し、各領域の役割を理解することを目的としている。
トレーニングデータは非常に限られており、効率的なモデルがないため、DLAシステムを構築するのは困難です。
DLAタスクに対して,DRFN(Dynamic Residual Fusion Network)と呼ばれるエンドツーエンドの統合ネットワークを提案する。
- 参考スコア(独自算出の注目度): 10.670880187577778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The document layout analysis (DLA) aims to split the document image into
different interest regions and understand the role of each region, which has
wide application such as optical character recognition (OCR) systems and
document retrieval. However, it is a challenge to build a DLA system because
the training data is very limited and lacks an efficient model. In this paper,
we propose an end-to-end united network named Dynamic Residual Fusion Network
(DRFN) for the DLA task. Specifically, we design a dynamic residual feature
fusion module which can fully utilize low-dimensional information and maintain
high-dimensional category information. Besides, to deal with the model
overfitting problem that is caused by lacking enough data, we propose the
dynamic select mechanism for efficient fine-tuning in limited train data. We
experiment with two challenging datasets and demonstrate the effectiveness of
the proposed module.
- Abstract(参考訳): 文書レイアウト解析(DLA)は、文書イメージを異なる関心領域に分割し、光学文字認識(OCR)システムや文書検索など幅広い用途を持つ各領域の役割を理解することを目的としている。
しかし、トレーニングデータが非常に限られており、効率的なモデルがないため、DLAシステムを構築するのは困難である。
本稿では,DLAタスクに対して,DRFN(Dynamic Residual Fusion Network)と呼ばれるエンドツーエンドの統合ネットワークを提案する。
具体的には,低次元情報を十分に活用し,高次元のカテゴリ情報を保持する動的特徴融合モジュールを設計した。
また,十分なデータ不足によるモデルオーバーフィッティング問題に対処するため,限られた列車データに対して効率的な微調整を行う動的選択機構を提案する。
2つの難解なデータセットを実験し,提案モジュールの有効性を示す。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - LayeredDoc: Domain Adaptive Document Restoration with a Layer Separation Approach [9.643486775455841]
本稿では,文書画像復元システムにおける領域適応性を向上するテキスト・グラフィック・レイヤ分離手法を提案する。
本稿では,2つのレイヤ情報を利用するLayeredDocを提案する。第1のターゲットは粗粒のグラフィックコンポーネントであり,第2のレイヤは機械印刷されたテキストコンテンツを洗練する。
本研究では,本研究のために開発された新しい実世界のデータセットであるLayeredDocDBを用いて,定性的かつ定量的にアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-12T19:41:01Z) - Images in Discrete Choice Modeling: Addressing Data Isomorphism in
Multi-Modality Inputs [77.54052164713394]
本稿では,離散選択モデリング(DCM)と機械学習の交わりについて考察する。
本稿では,DCMフレームワーク内の従来の表型入力と同型情報を共有する高次元画像データの埋め込み結果について検討する。
論文 参考訳(メタデータ) (2023-12-22T14:33:54Z) - A Graphical Approach to Document Layout Analysis [2.5108258530670606]
文書レイアウト分析 (Document layout analysis, DLA) は、文書内の別個の意味的内容を検出するタスクである。
既存の最先端(SOTA)のDLAモデルは、ドキュメントをイメージとして表現し、電子的に生成されたPDFで利用可能な豊富なメタデータを捨てる。
本稿では,グラフベースレイアウト解析モデル(GLAM)を紹介する。
論文 参考訳(メタデータ) (2023-08-03T21:09:59Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - End-to-End Information Extraction by Character-Level Embedding and
Multi-Stage Attentional U-Net [0.9137554315375922]
本稿では,文書の2次元キャラクタグリッド埋め込みにおけるエンドツーエンド情報抽出のための新しいディープラーニングアーキテクチャを提案する。
このモデルでは,パラメータを40%減らしながら,ベースラインのU-Netアーキテクチャを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2021-06-02T05:42:51Z) - Accurate and Lightweight Image Super-Resolution with Model-Guided Deep
Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。
MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。
RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2020-09-14T08:23:37Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。