論文の概要: Operationalizing Document AI: A Microservice Architecture for OCR and LLM Pipelines in Production
- arxiv url: http://arxiv.org/abs/2605.18818v1
- Date: Tue, 12 May 2026 13:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.355982
- Title: Operationalizing Document AI: A Microservice Architecture for OCR and LLM Pipelines in Production
- Title(参考訳): ドキュメントAIの運用 - OCRとLLMパイプラインを運用するマイクロサービスアーキテクチャ
- Authors: Yao Fehlis, Benjamin Bengfort, Zhangzhang Si, Vahid Eyorokon, Prema Roman, Patrick Deziel, Devon Slonaker, Steve Veldman, Ben Johnson, Joyce Rigelo, Michael Wharton, Steve Kramer,
- Abstract要約: 本稿では、分類、光学文字認識(OCR)、大規模言語モデル構造化フィールド抽出のための複数のモデルのパイプラインをカプセル化するマイクロサービスアーキテクチャを提案する。
我々は、ハイブリッドな分類、CPUバウンドオーケストレーションからのGPUバウンド推論の分離、パイプライン内の多くのIOバウンド操作に対する非同期処理の使用、独立した水平スケーリング戦略を含む、私たちの主要な設計決定について説明する。
私たちのゴールは、ベンチマークを超えて動作する文書理解システムを構築するための具体的なアーキテクチャパターンを実践者に提供し、本番環境でモデルを効果的に運用することです。
- 参考スコア(独自算出の注目度): 0.07083294473439815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Academic research tends to focus on new models for document understanding creating a wide gap in the literature between model definition and running models at production scale. To close that gap, we present a microservice architecture that encapsulates pipelines of multiple models for classification, optical character recognition (OCR), and large language model structured field extraction as well as our experience running this pipeline on thousands of multi-page documents per hour. We describe our primary design decisions, including a hybrid classification, separation of GPU-bound inference from CPU-bound orchestration, use of asynchronous processing for the many IO-bound operations in the pipeline, and an independent, horizontal scaling strategy. Using batch profiling, we identified two surprising qualitative findings that shape production deployments: OCR, not language-model parsing, dominates end-to-end latency, and the system saturates at a concurrency determined by shared GPU-inference capacity rather than worker count. Our goal is to provide practitioners with concrete architectural patterns for building document understanding systems that work beyond the benchmark; effectively operationalizing models in production.
- Abstract(参考訳): 学術的な研究は、文書理解のための新しいモデルに焦点を当てる傾向があり、生産規模でモデル定義と実行モデルの間の文献に幅広いギャップが生じる。
このギャップを埋めるために、分類、光学文字認識(OCR)、大規模言語モデル構造化フィールド抽出のための複数のモデルのパイプラインをカプセル化したマイクロサービスアーキテクチャを紹介します。
我々は、ハイブリッドな分類、CPUバウンドオーケストレーションからのGPUバウンド推論の分離、パイプライン内の多くのIOバウンド操作に対する非同期処理の使用、独立した水平スケーリング戦略を含む、私たちの主要な設計決定について説明する。
バッチプロファイリングを用いて、言語モデル解析ではなく、OCRがエンドツーエンドのレイテンシを支配し、システムはワーカ数ではなくGPU推論能力の共有によって決定される並行処理で飽和する、という2つの驚くべき定性的な結果を特定した。
私たちのゴールは、ベンチマークを超えて動作する文書理解システムを構築するための具体的なアーキテクチャパターンを実践者に提供し、本番環境でモデルを効果的に運用することです。
関連論文リスト
- DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding [63.257540233507626]
本稿では、構造化解析、局所化、推論のワークフローを実行するためにモデルを必要とするパラダイムを提案する。
ショートページトレーニングから超長文書への堅牢な一般化を示し、視覚的検索・拡張生成システムと自然に相乗効果を示す。
論文 参考訳(メタデータ) (2026-04-14T14:39:26Z) - Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。
この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。
モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文 参考訳(メタデータ) (2025-07-11T07:25:55Z) - Large Language Model Based Multi-Agent System Augmented Complex Event Processing Pipeline for Internet of Multimedia Things [8.729059187561761]
本稿では,複合イベント処理(CEP)のためのLarge Language Model (LLM)ベースのシステムフレームワークの開発と評価について述べる。
第一の目的は概念実証を作ることで、現在のCEPシステムとのLLMの統合に対処するために、最先端のLLMオーケストレーションフレームワークとパブリッシュ/サブスクライブ(pub/sub)ツールを統合することである。
論文 参考訳(メタデータ) (2025-01-01T17:38:40Z) - Transformer Architecture for NetsDB [0.0]
我々はNetsDBで機能するディープラーニングモデルのためのトランスフォーマーのエンドツーエンド実装を作成します。
分散処理、デプロイメント、効率的な推論のために、当社のモデルから重みをロードします。
論文 参考訳(メタデータ) (2024-05-08T04:38:36Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Responsive parallelized architecture for deploying deep learning models
in production environments [0.10152838128195467]
リクルーターは、カリキュラムヴィタエ(CV)文書を閲覧することで、求職者の候補を簡単にショートリストできる。
非構造化文書 CV は候補者のポートフォリオを保持し、詳細をリストアップするエンティティを命名する。
本研究の目的は、CVエンティティを体系的に予測するWeb指向で応答性の高い計算パイプラインの設計と提案である。
論文 参考訳(メタデータ) (2021-12-15T04:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。