論文の概要: PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue
- arxiv url: http://arxiv.org/abs/2603.09414v1
- Date: Tue, 10 Mar 2026 09:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.203371
- Title: PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue
- Title(参考訳): PromptDLA: 記述的知識をヒントとしたドメイン対応のドキュメントレイアウト分析フレームワーク
- Authors: Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong,
- Abstract要約: 本稿では,文書レイアウト解析のためのドメイン認識型プロンプタであるPromptDLAを紹介する。
革新的なPromptDLAは、データドメインの特定の属性に基づいてプロンプトをカスタマイズするユニークなドメイン対応プロンプトを備えている。
提案手法はDocLayNet,PubLayNet,M6Doc,D$4$LAにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 43.907561453640085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document Layout Analysis (DLA) is crucial for document artificial intelligence and has recently received increasing attention, resulting in an influx of large-scale public DLA datasets. Existing work often combines data from various domains in recent public DLA datasets to improve the generalization of DLA. However, directly merging these datasets for training often results in suboptimal model performance, as it overlooks the different layout structures inherent to various domains. These variations include different labeling styles, document types, and languages. This paper introduces PromptDLA, a domain-aware Prompter for Document Layout Analysis that effectively leverages descriptive knowledge as cues to integrate domain priors into DLA. The innovative PromptDLA features a unique domain-aware prompter that customizes prompts based on the specific attributes of the data domain. These prompts then serve as cues that direct the DLA toward critical features and structures within the data, enhancing the model's ability to generalize across varied domains. Extensive experiments show that our proposal achieves state-of-the-art performance among DocLayNet, PubLayNet, M6Doc, and D$^4$LA. Our code is available at https://github.com/Zirui00/PromptDLA.
- Abstract(参考訳): Document Layout Analysis(DLA)は、ドキュメント人工知能にとって不可欠であり、最近注目を集め、大規模な公開DLAデータセットが流入した。
既存の作業は、DLAの一般化を改善するために、最近のパブリックなDLAデータセットにおける様々なドメインのデータを組み合わせることが多い。
しかし、これらのデータセットをトレーニングのために直接マージすると、様々なドメイン固有の異なるレイアウト構造を見過ごせるため、最適なモデルパフォーマンスが得られることが多い。
これらのバリエーションには、異なるラベリングスタイル、ドキュメントタイプ、言語が含まれる。
本稿では、文書レイアウト分析のためのドメイン認識型プロンプタであるPromptDLAを紹介し、ドメインの事前知識をDLAに統合するための手がかりとして記述的知識を効果的に活用する。
革新的なPromptDLAは、データドメインの特定の属性に基づいてプロンプトをカスタマイズするユニークなドメイン対応プロンプトを備えている。
これらのプロンプトは、DLAをデータ内の重要な特徴や構造に向ける手がかりとして機能し、モデルが様々な領域にまたがって一般化する能力を高める。
実験の結果,DocLayNet,PubLayNet,M6Doc,D$4$LAにおける最先端の性能が得られた。
私たちのコードはhttps://github.com/Zirui00/PromptDLAで公開されています。
関連論文リスト
- IndicDLP: A Foundational Dataset for Multi-Lingual and Multi-Domain Document Layout Parsing [8.447520506307567]
IndicDLPは、11の代表的なIndic言語と12の共通文書ドメインにまたがる大規模な基礎文書レイアウトデータセットである。
IndicDLPにおける英語モデルの微調整が性能を著しく向上させることを示す。
IndicDLPでトレーニングされたモデルは、Indicレイアウトをはるかに越えて一般化され、ドキュメントのデジタル化に有用なリソースとなっている。
論文 参考訳(メタデータ) (2025-12-23T10:49:37Z) - SFDLA: Source-Free Document Layout Analysis [24.818464771642926]
我々は、事前学習されたソースDLAモデルをラベルなしのターゲットドメインに適応することを目的とした、ソースフリードキュメントレイアウト分析(SFDLA)を紹介する。
提案手法は,ソースのみのベースラインに対して+4.21%,PubLayNetからDocLayNetまでの既存のソースフリーメソッドよりも+2.26%向上する。
論文 参考訳(メタデータ) (2025-03-24T14:50:28Z) - DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。
我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。
AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文 参考訳(メタデータ) (2024-06-14T09:52:27Z) - DLAFormer: An End-to-End Transformer For Document Layout Analysis [7.057192434574117]
DLAFormerと呼ばれる文書レイアウト解析のためのエンド・ツー・エンド・トランスフォーマー方式を提案する。
各種DLAサブタスクを関係予測問題として扱い、これらの関係予測ラベルを統一ラベル空間に統合する。
本稿では,DeTRにおけるコンテンツクエリの物理的意味を高めるために,新しいタイプのクエリセットを提案する。
論文 参考訳(メタデータ) (2024-05-20T03:34:24Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。