論文の概要: Docling Technical Report
- arxiv url: http://arxiv.org/abs/2408.09869v3
- Date: Fri, 30 Aug 2024 15:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 17:38:32.980966
- Title: Docling Technical Report
- Title(参考訳): ドッキング技術報告
- Authors: Christoph Auer, Maksym Lysak, Ahmed Nassar, Michele Dolfi, Nikolaos Livathinos, Panos Vagenas, Cesar Berrospi Ramis, Matteo Omenetti, Fabian Lindlbauer, Kasper Dinkla, Lokesh Mishra, Yusik Kim, Shubham Gupta, Rafael Teixeira de Lima, Valery Weber, Lucas Morin, Ingmar Meijer, Viktor Kuropiatnyk, Peter W. J. Staar,
- Abstract要約: Doclingは簡単に使える、自己完結型の、MITライセンスのPDFドキュメント変換用オープンソースパッケージである。
レイアウト分析(DocLayNet)とテーブル構造認識(TableFormer)のための最先端のAIモデルによって実現されている。
- 参考スコア(独自算出の注目度): 19.80268711310715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models.
- Abstract(参考訳): この技術レポートではDoclingを紹介します。Doclingは簡単に使える、自己完結型の、MITライセンスのPDFドキュメント変換用オープンソースパッケージです。
レイアウト分析(DocLayNet)とテーブル構造認識(TableFormer)のための最先端の専門的なAIモデルを活用し、小さなリソース予算でコモディティハードウェア上で効率的に動作する。
コードインターフェースにより、簡単に拡張でき、新しい機能やモデルの追加が可能になる。
関連論文リスト
- UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。
UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文 参考訳(メタデータ) (2024-09-20T01:26:32Z) - HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。
文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文 参考訳(メタデータ) (2024-07-11T09:28:04Z) - DocSynthv2: A Practical Autoregressive Modeling for Document Generation [43.84027661517748]
本稿では, 単純で効果的な自己回帰構造モデルの開発を通じて, Doc Synthv2と呼ばれる新しい手法を提案する。
我々のモデルは、レイアウトとテキストの両方を統合する点で際立ったものであり、既存のレイアウト生成アプローチを超える一歩を踏み出している。
論文 参考訳(メタデータ) (2024-06-12T16:00:16Z) - A Standardized Machine-readable Dataset Documentation Format for Responsible AI [8.59437843168878]
Croissant-RAIは、AIデータセットの発見性、相互運用性、信頼性を高めるために設計された、機械可読なメタデータフォーマットである。
主要なデータ検索エンジン、リポジトリ、機械学習フレームワークに統合されている。
論文 参考訳(メタデータ) (2024-06-04T16:40:14Z) - KnowledgeHub: An end-to-end Tool for Assisted Scientific Discovery [1.6080795642111267]
本稿では、知識Hubツール、科学文献情報抽出(IE)および質問回答(QA)パイプラインについて述べる。
これはPDF文書がテキストや構造化表現に変換されるのをサポートすることで達成される。
ブラウザベースのアノテーションツールは、オントロジーに従ってPDF文書の内容に注釈を付けることができる。
これらのエンティティと関係トリプルから知識グラフを構築し、データから洞察を得るためにクエリすることができる。
論文 参考訳(メタデータ) (2024-05-16T13:17:14Z) - DocXChain: A Powerful Open-Source Toolchain for Document Parsing and
Beyond [17.853066545805554]
DocXChainは、ドキュメント解析のための強力なオープンソースツールチェーンである。
テキスト、テーブル、チャートなどの構造化されていないドキュメントに具現化されたリッチな情報を、構造化された表現に自動的に変換する。
論文 参考訳(メタデータ) (2023-10-19T02:49:09Z) - Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization [0.0]
構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。
本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
論文 参考訳(メタデータ) (2023-10-02T07:05:19Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。