論文の概要: DocFusion: A Unified Framework for Document Parsing Tasks
- arxiv url: http://arxiv.org/abs/2412.12505v1
- Date: Tue, 17 Dec 2024 03:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:43.259372
- Title: DocFusion: A Unified Framework for Document Parsing Tasks
- Title(参考訳): DocFusion: ドキュメント解析タスクの統一フレームワーク
- Authors: Mingxu Chai, Ziyu Shen, Chong Zhang, Yue Zhang, Xiao Wang, Shihan Dou, Jihua Kang, Jiazheng Zhang, Qi Zhang,
- Abstract要約: DocFusionは0.28Bパラメータしか持たない軽量な生成モデルである。
タスク表現を統一し、改善された目的関数を通して協調訓練を行う。
- 参考スコア(独自算出の注目度): 22.916911092946897
- License:
- Abstract: Document parsing is essential for analyzing complex document structures and extracting fine-grained information, supporting numerous downstream applications. However, existing methods often require integrating multiple independent models to handle various parsing tasks, leading to high complexity and maintenance overhead. To address this, we propose DocFusion, a lightweight generative model with only 0.28B parameters. It unifies task representations and achieves collaborative training through an improved objective function. Experiments reveal and leverage the mutually beneficial interaction among recognition tasks, and integrating recognition data significantly enhances detection performance. The final results demonstrate that DocFusion achieves state-of-the-art (SOTA) performance across four key tasks.
- Abstract(参考訳): 文書解析は、複雑な文書構造を分析し、詳細な情報を抽出し、多くの下流アプリケーションをサポートするために不可欠である。
しかし、既存のメソッドは、様々な解析タスクを処理するために複数の独立したモデルを統合する必要があるため、複雑さとメンテナンスのオーバーヘッドが高い。
そこで本研究では,0.28Bのパラメータしか持たない軽量な生成モデルDocFusionを提案する。
タスク表現を統一し、改善された目的関数を通して協調訓練を行う。
実験では、認識タスク間の相互に有益な相互作用を明らかにし、活用し、認識データの統合により検出性能が著しく向上する。
最終結果は、DocFusionが4つの主要なタスクで最新技術(SOTA)のパフォーマンスを達成することを示す。
関連論文リスト
- BoundingDocs: a Unified Dataset for Document Question Answering with Spatial Annotations [2.9798896492745537]
文書質問回答(QA)のための統合データセットを提案する。
情報抽出(IE)などの既存の文書AIタスクを質問応答タスクに再構成する。
一方、全文書のOCRを公開し、文書画像中の回答の正確な位置をバウンディングボックスとして含む。
論文 参考訳(メタデータ) (2025-01-06T21:46:22Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding [23.910783272007407]
本稿では、ビジュアル文書理解(VDU)を強化するために設計された新しい合成文書生成パイプラインであるSynthDocを紹介する。
データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。
ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
論文 参考訳(メタデータ) (2024-08-27T03:31:24Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Retrieval-Generation Synergy Augmented Large Language Models [30.53260173572783]
本稿では,反復的な検索・生成協調フレームワークを提案する。
シングルホップQAとマルチホップQAタスクを含む4つの質問応答データセットの実験を行った。
論文 参考訳(メタデータ) (2023-10-08T12:50:57Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。