Fugu-MT 論文翻訳(概要): Docling Technical Report

論文の概要: Docling Technical Report

arxiv url: http://arxiv.org/abs/2408.09869v3
Date: Fri, 30 Aug 2024 15:05:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 17:38:32.980966
Title: Docling Technical Report
Title（参考訳）: ドッキング技術報告
Authors: Christoph Auer, Maksym Lysak, Ahmed Nassar, Michele Dolfi, Nikolaos Livathinos, Panos Vagenas, Cesar Berrospi Ramis, Matteo Omenetti, Fabian Lindlbauer, Kasper Dinkla, Lokesh Mishra, Yusik Kim, Shubham Gupta, Rafael Teixeira de Lima, Valery Weber, Lucas Morin, Ingmar Meijer, Viktor Kuropiatnyk, Peter W. J. Staar,
Abstract要約: Doclingは簡単に使える、自己完結型の、MITライセンスのPDFドキュメント変換用オープンソースパッケージである。レイアウト分析(DocLayNet)とテーブル構造認識(TableFormer)のための最先端のAIモデルによって実現されている。
参考スコア（独自算出の注目度）: 19.80268711310715
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models.
Abstract（参考訳）: この技術レポートではDoclingを紹介します。Doclingは簡単に使える、自己完結型の、MITライセンスのPDFドキュメント変換用オープンソースパッケージです。レイアウト分析(DocLayNet)とテーブル構造認識(TableFormer)のための最先端の専門的なAIモデルを活用し、小さなリソース予算でコモディティハードウェア上で効率的に動作する。コードインターフェースにより、簡単に拡張でき、新しい機能やモデルの追加が可能になる。

関連論文リスト

ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images [19.490609860018804]
文書画像から構造化情報抽出(IE)のための新しいベンチマークデータセットであるExStrucTinyを紹介する。 ExStrucTinyは、手動と合成された人間のバリデーションサンプルを組み合わせた、新しいパイプラインで構築されている。このベンチマークでオープンでクローズドなビジョン言語モデルを分析し、適応、クエリアンダーセグメンテーション、スキーマ適応といった課題を強調します。
論文参考訳（メタデータ） (2026-02-12T17:38:57Z)
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。 2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文参考訳（メタデータ） (2025-11-13T15:12:17Z)
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
Enhancing Technical Documents Retrieval for RAG [20.424634673802284]
Technical-Embeddingsは、技術ドキュメントのセマンティック検索を最適化するために設計された新しいフレームワークである。この研究は、検索可能拡張生成(RAG)システムの現状を前進させ、効率的かつ正確な技術文書検索のための新しい手段を提供する。
論文参考訳（メタデータ） (2025-09-04T12:11:03Z)
Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文参考訳（メタデータ） (2025-07-11T07:25:55Z)
Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-14T19:19:26Z)
Docling: An Efficient Open-Source Toolkit for AI-driven Document Conversion [20.44433450426808]
Doclingは、ドキュメント変換のための、使いやすく、自己完結型、MITライセンスのオープンソースツールキットである。複数の一般的なドキュメントフォーマットを、統一されたリッチな構造化された表現に解析することができる。 DoclingはPythonパッケージとしてリリースされており、Python APIやCLIツールとして使用できる。
論文参考訳（メタデータ） (2025-01-27T19:40:00Z)
UniTabNet: Bridging Vision and Language Models for Enhanced Table Structure Recognition [55.153629718464565]
我々は、画像からテキストへのモデルに基づくテーブル構造解析のための新しいフレームワークUniTabNetを紹介する。 UniTabNetは、画像とテキストのモデルを使ってテーブルセルを分離し、物理デコーダと論理デコーダを統合して完全なテーブル構造を再構築する。
論文参考訳（メタデータ） (2024-09-20T01:26:32Z)
HDT: Hierarchical Document Transformer [70.2271469410557]
HDTは補助的なアンカートークンを導入し、アテンション機構をスパースなマルチレベル階層に再設計することでドキュメント構造を利用する。文書の階層構造を考慮した新しいスパークアテンションカーネルを開発した。
論文参考訳（メタデータ） (2024-07-11T09:28:04Z)
DocSynthv2: A Practical Autoregressive Modeling for Document Generation [43.84027661517748]
本稿では, 単純で効果的な自己回帰構造モデルの開発を通じて, Doc Synthv2と呼ばれる新しい手法を提案する。我々のモデルは、レイアウトとテキストの両方を統合する点で際立ったものであり、既存のレイアウト生成アプローチを超える一歩を踏み出している。
論文参考訳（メタデータ） (2024-06-12T16:00:16Z)
A Standardized Machine-readable Dataset Documentation Format for Responsible AI [8.59437843168878]
Croissant-RAIは、AIデータセットの発見性、相互運用性、信頼性を高めるために設計された、機械可読なメタデータフォーマットである。主要なデータ検索エンジン、リポジトリ、機械学習フレームワークに統合されている。
論文参考訳（メタデータ） (2024-06-04T16:40:14Z)
KnowledgeHub: An end-to-end Tool for Assisted Scientific Discovery [1.6080795642111267]
本稿では、知識Hubツール、科学文献情報抽出(IE)および質問回答(QA)パイプラインについて述べる。これはPDF文書がテキストや構造化表現に変換されるのをサポートすることで達成される。ブラウザベースのアノテーションツールは、オントロジーに従ってPDF文書の内容に注釈を付けることができる。これらのエンティティと関係トリプルから知識グラフを構築し、データから洞察を得るためにクエリすることができる。
論文参考訳（メタデータ） (2024-05-16T13:17:14Z)
DocXChain: A Powerful Open-Source Toolchain for Document Parsing and Beyond [17.853066545805554]
DocXChainは、ドキュメント解析のための強力なオープンソースツールチェーンである。テキスト、テーブル、チャートなどの構造化されていないドキュメントに具現化されたリッチな情報を、構造化された表現に自動的に変換する。
論文参考訳（メタデータ） (2023-10-19T02:49:09Z)
Data Efficient Training of a U-Net Based Architecture for Structured Documents Localization [0.0]
構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
論文参考訳（メタデータ） (2023-10-02T07:05:19Z)
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文参考訳（メタデータ） (2023-07-04T11:28:07Z)
CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。 CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文参考訳（メタデータ） (2023-05-31T05:24:48Z)
DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文参考訳（メタデータ） (2021-01-28T03:21:17Z)
GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。我々はFinTabという中国の標準データセットを公開しています。今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文参考訳（メタデータ） (2020-03-17T07:10:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。