論文の概要: Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion
- arxiv url: http://arxiv.org/abs/2501.17887v1
- Date: Mon, 27 Jan 2025 19:40:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:52.822321
- Title: Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion
- Title(参考訳): Docling: AI駆動のドキュメント変換のための効率的なオープンソースツールキット
- Authors: Nikolaos Livathinos, Christoph Auer, Maksym Lysak, Ahmed Nassar, Michele Dolfi, Panos Vagenas, Cesar Berrospi Ramis, Matteo Omenetti, Kasper Dinkla, Yusik Kim, Shubham Gupta, Rafael Teixeira de Lima, Valery Weber, Lucas Morin, Ingmar Meijer, Viktor Kuropiatnyk, Peter W. J. Staar,
- Abstract要約: Doclingは、ドキュメント変換のための、使いやすく、自己完結型、MITライセンスのオープンソースツールキットである。
複数の一般的なドキュメントフォーマットを、統一されたリッチな構造化された表現に解析することができる。
DoclingはPythonパッケージとしてリリースされており、Python APIやCLIツールとして使用できる。
- 参考スコア(独自算出の注目度): 20.44433450426808
- License:
- Abstract: We introduce Docling, an easy-to-use, self-contained, MIT-licensed, open-source toolkit for document conversion, that can parse several types of popular document formats into a unified, richly structured representation. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. Docling is released as a Python package and can be used as a Python API or as a CLI tool. Docling's modular architecture and efficient document representation make it easy to implement extensions, new features, models, and customizations. Docling has been already integrated in other popular open-source frameworks (e.g., LangChain, LlamaIndex, spaCy), making it a natural fit for the processing of documents and the development of high-end applications. The open-source community has fully engaged in using, promoting, and developing for Docling, which gathered 10k stars on GitHub in less than a month and was reported as the No. 1 trending repository in GitHub worldwide in November 2024.
- Abstract(参考訳): 私たちはDoclingを紹介します。ドキュメント変換のためのMITライセンスのオープンソースツールキットで、さまざまな種類の一般的なドキュメントフォーマットを統一されたリッチな構造化された表現に解析することができます。
レイアウト分析(DocLayNet)とテーブル構造認識(TableFormer)のための最先端の専門的なAIモデルを活用し、小さなリソース予算でコモディティハードウェア上で効率的に動作する。
DoclingはPythonパッケージとしてリリースされており、Python APIやCLIツールとして使用できる。
Doclingのモジュール化されたアーキテクチャと効率的なドキュメント表現により、拡張や新機能、モデル、カスタマイズを簡単に実装できる。
Doclingは、他の人気のあるオープンソースフレームワーク(例えば、LangChain、LlamaIndex、paCy)にすでに統合されており、ドキュメントの処理やハイエンドアプリケーションの開発に自然にフィットする。
DoclingはGitHubで1ヶ月足らずで10万のスターを集め、2024年11月に世界中のGitHubのトレンドリポジトリ第1位にランクインした。
関連論文リスト
- M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework [75.95430061891828]
851サンプルのベンチマークであるM-LongDocと、大規模マルチモーダルモデルの性能を評価するための自動フレームワークを紹介する。
効率的なマルチモーダル文書読解のための検索対応チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-11-09T13:30:38Z) - Docling Technical Report [19.80268711310715]
Doclingは簡単に使える、自己完結型の、MITライセンスのPDFドキュメント変換用オープンソースパッケージである。
レイアウト分析(DocLayNet)とテーブル構造認識(TableFormer)のための最先端のAIモデルによって実現されている。
論文 参考訳(メタデータ) (2024-08-19T10:20:06Z) - pyvene: A Library for Understanding and Improving PyTorch Models via
Interventions [79.72930339711478]
$textbfpyvene$は、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースライブラリである。
私たちは、$textbfpyvene$が、ニューラルモデルへの介入を実行し、他のモデルとインターバルされたモデルを共有するための統一されたフレームワークを提供する方法を示します。
論文 参考訳(メタデータ) (2024-03-12T16:46:54Z) - DocXChain: A Powerful Open-Source Toolchain for Document Parsing and
Beyond [17.853066545805554]
DocXChainは、ドキュメント解析のための強力なオープンソースツールチェーンである。
テキスト、テーブル、チャートなどの構造化されていないドキュメントに具現化されたリッチな情報を、構造化された表現に自動的に変換する。
論文 参考訳(メタデータ) (2023-10-19T02:49:09Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - DocCoder: Generating Code by Retrieving and Reading Docs [87.88474546826913]
コードマニュアルとドキュメントを明示的に活用するアプローチであるDocCoderを紹介します。
我々のアプローチは一般的に、どんなプログラミング言語にも適用でき、基礎となるニューラルモデルとは無関係です。
論文 参考訳(メタデータ) (2022-07-13T06:47:51Z) - You Only Write Thrice: Creating Documents, Computational Notebooks and
Presentations From a Single Source [11.472707084860875]
学術的な取引では、異なるフォーマットで発行された同じコンテンツの複数の変種をジャグリングする必要がある。
本稿では,バージョン管理環境における単一ソース文書の維持により,この負担を大幅に軽減することを提案する。
私たちは、Jupyter Book(オンラインドキュメント)、Jupyter Notebook(計算物語)を構成する概念実証ワークフローを提供し、単一のマークダウンソースファイルから.jsスライドを明らかにする。
論文 参考訳(メタデータ) (2021-07-02T21:02:09Z) - Doc2Dict: Information Extraction as Text Generation [0.0]
Doc2Dictはドキュメントレベルの情報を抽出するパイプラインである。
既存のデータベースレコードの言語モデルをトレーニングし、構造化されたスパンを生成します。
チェックポインティングとチャンクエンコーディングを用いて,1つのベースライン上の最大32,000トークンのシーケンスに適用する。
論文 参考訳(メタデータ) (2021-05-16T20:46:29Z) - DocOIE: A Document-level Context-Aware Dataset for OpenIE [22.544165148622422]
open information extraction (openie) は文から構造化関係を抽出することを目的としている。
既存のソリューションは、追加の文脈情報を参照することなく、文レベルで抽出を行う。
ドキュメントレベルの新しいOpenIEモデルであるDocIEを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:14:30Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。