論文の概要: EDocNet: Efficient Datasheet Layout Analysis Based on Focus and Global Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2502.16541v1
- Date: Sun, 23 Feb 2025 11:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:46.305569
- Title: EDocNet: Efficient Datasheet Layout Analysis Based on Focus and Global Knowledge Distillation
- Title(参考訳): EDocNet: フォーカスとグローバル知識蒸留に基づく効率的なデータシートレイアウト分析
- Authors: Hong Cai Chen, Longchang Wu, Yang Zhang,
- Abstract要約: 本稿では,文書解析のための文書レイアウト解析機能を実現するためにEDocNetを利用することを提案する。
本訓練方法は、焦点及びグローバル知識蒸留法を採用し、電子機器文書に適したモデルを得る。
- 参考スコア(独自算出の注目度): 3.7324910012003656
- License:
- Abstract: When designing circuits, engineers obtain the information of electronic devices by browsing a large number of documents, which is low efficiency and heavy workload. The use of artificial intelligence technology to automatically parse documents can greatly improve the efficiency of engineers. However, the current document layout analysis model is aimed at various types of documents and is not suitable for electronic device documents. This paper proposes to use EDocNet to realize the document layout analysis function for document analysis, and use the electronic device document data set created by myself for training. The training method adopts the focus and global knowledge distillation method, and a model suitable for electronic device documents is obtained, which can divide the contents of electronic device documents into 21 categories. It has better average accuracy and average recall rate. It also greatly improves the speed of model checking.
- Abstract(参考訳): 回路設計において、技術者は大量の文書を閲覧することで電子機器の情報を得る。
文書を自動解析する人工知能技術は、エンジニアの効率を大幅に向上させる。
しかし、現在の文書レイアウト分析モデルは、様々な種類の文書を対象としており、電子機器の文書には適していない。
本稿では,EDocNetを用いて文書分析のための文書レイアウト解析機能を実現することを提案する。
トレーニング方法は、焦点及びグローバルな知識蒸留法を採用し、電子機器文書の内容を21のカテゴリに分割できる電子機器文書に適したモデルを得る。
平均精度と平均リコールレートが向上している。
また、モデルチェックのスピードを大幅に改善する。
関連論文リスト
- Enhancing Document Key Information Localization Through Data Augmentation [0.9065034043031668]
本研究の目的は,デジタル文書と手書き文書の両方にオブジェクトをローカライズする手法を開発することである。
我々は手書き文書の出現を模倣してデジタル文書のトレーニングセットを強化する。
論文 参考訳(メタデータ) (2025-02-10T03:46:39Z) - BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks [55.61185100263898]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-05T21:41:20Z) - DocEDA: Automated Extraction and Design of Analog Circuits from Documents with Large Language Model [4.484539889795883]
本稿では,先進的なコンピュータビジョン技術と大規模言語モデル(LLM)を活用して,文書からシームレスに電気パラメータを抽出する自動システムDocEDAを紹介する。
実験の結果,DocEDAは回路設計文書の処理効率と電気パラメータ抽出の精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-11-25T15:41:43Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization [0.0]
構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。
本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
論文 参考訳(メタデータ) (2023-10-02T07:05:19Z) - HADES: Homologous Automated Document Exploration and Summarization [3.3509104620016092]
HADESは大量の文書を扱う専門家の仕事の合理化を目的としている。
このツールは、トピックモデリング、要約、トピック毎の最も重要な単語の解析を用いてPDF文書の処理から始まる多段階パイプラインを使用する。
論文 参考訳(メタデータ) (2023-02-25T15:16:10Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - Document AI: Benchmarks, Models and Applications [35.46858492311289]
ドキュメントAI(Document AI)とは、ビジネス文書を自動的に読み、理解し、分析する技術である。
近年、ディープラーニング技術の人気は、Document AIの開発を大きく進めている。
本稿では,代表モデル,タスク,ベンチマークデータセットについて概説する。
論文 参考訳(メタデータ) (2021-11-16T16:43:07Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。