Fugu-MT 論文翻訳(概要): DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond

論文の概要: DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond

arxiv url: http://arxiv.org/abs/2310.12430v1
Date: Thu, 19 Oct 2023 02:49:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 17:16:38.633216
Title: DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond
Title（参考訳）: DocXChain: ドキュメント解析などのための強力なオープンソースツールチェーン
Authors: Cong Yao
Abstract要約: DocXChainは、ドキュメント解析のための強力なオープンソースツールチェーンである。テキスト、テーブル、チャートなどの構造化されていないドキュメントに具現化されたリッチな情報を、構造化された表現に自動的に変換する。
参考スコア（独自算出の注目度）: 17.853066545805554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this report, we introduce DocXChain, a powerful open-source toolchain for document parsing, which is designed and developed to automatically convert the rich information embodied in unstructured documents, such as text, tables and charts, into structured representations that are readable and manipulable by machines. Specifically, basic capabilities, including text detection, text recognition, table structure recognition and layout analysis, are provided. Upon these basic capabilities, we also build a set of fully functional pipelines for document parsing, i.e., general text reading, table parsing, and document structurization, to drive various applications related to documents in real-world scenarios. Moreover, DocXChain is concise, modularized and flexible, such that it can be readily integrated with existing tools, libraries or models (such as LangChain and ChatGPT), to construct more powerful systems that can accomplish more complicated and challenging tasks. The code of DocXChain is publicly available at:~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/Applications/DocXChain}
Abstract（参考訳）: 本稿では,文書解析のための強力なオープンソースツールチェーンDocXChainを紹介し,テキストや表,チャートなどの構造化されていない文書に具現化されたリッチな情報を,機械で読みやすく操作可能な構造化表現に自動変換する。具体的には、テキスト検出、テキスト認識、テーブル構造認識、レイアウト分析などの基本的な機能が提供される。これらの基本的な機能により、文書解析のための完全なパイプライン、すなわち一般的なテキスト読み込み、テーブル解析、文書構造化のセットを構築し、実際のシナリオで文書に関連する様々なアプリケーションを駆動します。さらにDocXChainは簡潔でモジュール化され、柔軟性があり、既存のツールやライブラリ、モデル(LangChainやChatGPTなど)と簡単に統合でき、より複雑で困難なタスクを達成できるより強力なシステムを構築することができる。 DocXChainのコードは:~\url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/Applications/DocXChain}で公開されている。

関連論文リスト

MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。 MoDora は半構造化文書解析のための LLM を利用したシステムである。実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-26T14:48:49Z)
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。 2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文参考訳（メタデータ） (2025-11-13T15:12:17Z)
Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion [20.44433450426808]
Doclingは、ドキュメント変換のための、使いやすく、自己完結型、MITライセンスのオープンソースツールキットである。複数の一般的なドキュメントフォーマットを、統一されたリッチな構造化された表現に解析することができる。 DoclingはPythonパッケージとしてリリースされており、Python APIやCLIツールとして使用できる。
論文参考訳（メタデータ） (2025-01-27T19:40:00Z)
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文参考訳（メタデータ） (2024-10-28T16:11:35Z)
DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文参考訳（メタデータ） (2024-06-17T15:13:52Z)
Docs2KG: Unified Knowledge Graph Construction from Heterogeneous Documents Assisted by Large Language Models [11.959445364035734]
エンタープライズデータの80%は非構造化ファイルに格納され、不均一なフォーマットに対応するデータレイクに格納される。多様な異種文書からマルチモーダル情報を抽出する新しいフレームワークであるDocs2KGを紹介する。 Docs2KGは、抽出されたキー情報を表す統一知識グラフを生成する。
論文参考訳（メタデータ） (2024-06-05T05:35:59Z)
KnowledgeHub: An end-to-end Tool for Assisted Scientific Discovery [1.6080795642111267]
本稿では、知識Hubツール、科学文献情報抽出(IE)および質問回答(QA)パイプラインについて述べる。これはPDF文書がテキストや構造化表現に変換されるのをサポートすることで達成される。ブラウザベースのアノテーションツールは、オントロジーに従ってPDF文書の内容に注釈を付けることができる。これらのエンティティと関係トリプルから知識グラフを構築し、データから洞察を得るためにクエリすることができる。
論文参考訳（メタデータ） (2024-05-16T13:17:14Z)
PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文参考訳（メタデータ） (2023-09-16T04:29:05Z)
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文参考訳（メタデータ） (2023-07-04T11:28:07Z)
Cross-Modal Entity Matching for Visually Rich Documents [4.8119678510491815]
視覚的にリッチなドキュメントは、視覚的な手がかりを使ってセマンティクスを強化します。これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。
論文参考訳（メタデータ） (2023-03-01T18:26:14Z)
Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots [103.54897676954091]
Doc2Botは、ユーザーが会話を通じて情報を求めるのを助けるマシンを構築するためのデータセットである。われわれのデータセットには、5つのドメインの中国の文書に基づく10万回以上のターンが含まれている。
論文参考訳（メタデータ） (2022-10-20T07:33:05Z)
DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文参考訳（メタデータ） (2021-01-28T03:21:17Z)
DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文参考訳（メタデータ） (2020-06-01T16:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。