論文の概要: The future of document indexing: GPT and Donut revolutionize table of
content processing
- arxiv url: http://arxiv.org/abs/2403.07553v1
- Date: Tue, 12 Mar 2024 11:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:55:38.118466
- Title: The future of document indexing: GPT and Donut revolutionize table of
content processing
- Title(参考訳): ドキュメントインデクシングの未来: gpt と donut はコンテンツ処理のテーブルに革命をもたらす
- Authors: Degaga Wolde Feyisa, Haylemicheal Berihun, Amanuel Zewdu, Mahsa
Najimoghadam, Marzieh Zare
- Abstract要約: 本稿では、2つの最先端AIモデルの能力を活用して、このプロセスを自動化するための革新的なアプローチを紹介する。
DonutはOCRなしでスキャンされた文書から直接情報を抽出するモデルで、OpenAI GPT-3.5 Turboは堅牢な大規模言語モデルである。
ドナツは85%、GPT-3.5ターボは89%に達し、ToCを効果的に編成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial projects rely heavily on lengthy, complex specification documents,
making tedious manual extraction of structured information a major bottleneck.
This paper introduces an innovative approach to automate this process,
leveraging the capabilities of two cutting-edge AI models: Donut, a model that
extracts information directly from scanned documents without OCR, and OpenAI
GPT-3.5 Turbo, a robust large language model. The proposed methodology is
initiated by acquiring the table of contents (ToCs) from construction
specification documents and subsequently structuring the ToCs text into JSON
data. Remarkable accuracy is achieved, with Donut reaching 85% and GPT-3.5
Turbo reaching 89% in effectively organizing the ToCs. This landmark
achievement represents a significant leap forward in document indexing,
demonstrating the immense potential of AI to automate information extraction
tasks across diverse document types, boosting efficiency and liberating
critical resources in various industries.
- Abstract(参考訳): 産業プロジェクトは、長く複雑な仕様文書に大きく依存しており、構造化情報の退屈な手作業による抽出が大きなボトルネックとなっている。
本稿では,OCRなしでスキャンした文書から直接情報を抽出するDonutと,堅牢な大規模言語モデルであるOpenAI GPT-3.5 Turboの2つの最先端AIモデルの能力を活用した,このプロセスを自動化する革新的なアプローチを提案する。
提案手法は、構築仕様文書からコンテンツテーブル(tocs)を取得し、その後、tocsテキストをjsonデータに構造化することから始まる。
ドナツは85%、GPT-3.5ターボは89%に達し、ToCを効果的に編成した。
この画期的な成果は、さまざまなドキュメントタイプにわたる情報抽出タスクの自動化、効率の向上、さまざまな産業における重要なリソースの解放といった、aiの膨大な可能性を示す、ドキュメントインデックス化の大きな前進を示している。
関連論文リスト
- BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks [55.61185100263898]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-05T21:41:20Z) - From PDFs to Structured Data: Utilizing LLM Analysis in Sports Database Management [0.0]
本研究では,PDF文書から構造化形式への半構造化データ処理におけるLarge Language Models(LLMs)の有効性について検討した。
我々は,OpenAI の GPT-4 と Anthropic の Claude 3 Opus モデルを用いたAI 支援手法を開発し,評価した。
このシステムは自動処理で90%の成功率に達し、エラーのない72ファイル中65ファイルの処理に成功し、7900行以上のデータを変換した。
論文 参考訳(メタデータ) (2024-10-23T07:17:31Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding [23.910783272007407]
本稿では、ビジュアル文書理解(VDU)を強化するために設計された新しい合成文書生成パイプラインであるSynthDocを紹介する。
データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。
ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
論文 参考訳(メタデータ) (2024-08-27T03:31:24Z) - Advancing Question Answering on Handwritten Documents: A State-of-the-Art Recognition-Based Model for HW-SQuAD [30.559280110711143]
本稿では,HW-SQuADデータセットとBenthamQAデータセットの先行技術を改善する新しい認識ベースアプローチを提案する。
本モデルでは,変換器を用いた文書検索とアンサンブル手法をモデルレベルで導入し,HW-SQuADデータセットとBenthamQAデータセットにおいて,Exact Matchスコアが82.02%,69%に達した。
論文 参考訳(メタデータ) (2024-06-25T10:18:50Z) - Accelerated materials language processing enabled by GPT [5.518792725397679]
我々は材料言語処理のための生成変換器(GPT)対応パイプラインを開発した。
まず、関連する文書をスクリーニングするためのGPT対応文書分類手法を開発する。
第二に、NERタスクでは、エンティティ中心のプロンプトを設計し、そのほとんどを学習することで、パフォーマンスが改善された。
最後に,GPT対応抽出QAモデルを開発し,性能の向上とアノテーションの自動修正の可能性を示す。
論文 参考訳(メタデータ) (2023-08-18T07:31:13Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Key Information Extraction From Documents: Evaluation And Generator [3.878105750489656]
本研究プロジェクトは,文書からの情報抽出のための最先端モデルと比較する。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
境界ボックス回帰デコーダの使用により、長方形に従わないフィールドに対してのみモデル性能が向上する。
論文 参考訳(メタデータ) (2021-06-09T16:12:21Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。