論文の概要: Uni-Parser Technical Report
- arxiv url: http://arxiv.org/abs/2512.15098v1
- Date: Wed, 17 Dec 2025 05:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.865254
- Title: Uni-Parser Technical Report
- Title(参考訳): Uni-Parserテクニカルレポート
- Authors: Xi Fang, Haoyi Tao, Shuwen Yang, Suyang Zhong, Haocheng Lu, Han Lyu, Chaozheng Huang, Xinyu Li, Linfeng Zhang, Guolin Ke,
- Abstract要約: 本報告では、科学文献や特許に適した産業レベルの文書解析エンジンUni-を紹介する。
Uni-はモジュラーで疎結合なマルチエキスパートアーキテクチャを採用しており、テキスト、方程式、表、図形、化学構造にまたがる微粒なクロスモーダルアライメントを保っている。
- 参考スコア(独自算出の注目度): 17.504358106516214
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This technical report introduces Uni-Parser, an industrial-grade document parsing engine tailored for scientific literature and patents, delivering high throughput, robust accuracy, and cost efficiency. Unlike pipeline-based document parsing methods, Uni-Parser employs a modular, loosely coupled multi-expert architecture that preserves fine-grained cross-modal alignments across text, equations, tables, figures, and chemical structures, while remaining easily extensible to emerging modalities. The system incorporates adaptive GPU load balancing, distributed inference, dynamic module orchestration, and configurable modes that support either holistic or modality-specific parsing. Optimized for large-scale cloud deployment, Uni-Parser achieves a processing rate of up to 20 PDF pages per second on 8 x NVIDIA RTX 4090D GPUs, enabling cost-efficient inference across billions of pages. This level of scalability facilitates a broad spectrum of downstream applications, ranging from literature retrieval and summarization to the extraction of chemical structures, reaction schemes, and bioactivity data, as well as the curation of large-scale corpora for training next-generation large language models and AI4Science models.
- Abstract(参考訳): この技術レポートでは、Uni-Parserを紹介します。Uni-Parserは、科学文献や特許に適した産業レベルの文書解析エンジンで、高いスループット、堅牢な精度、コスト効率を提供します。
パイプラインベースの文書解析法とは異なり、Uni-Parserはモジュラーで疎結合なマルチエキスパートアーキテクチャを採用しており、テキスト、方程式、表、図形、化学構造にまたがる細粒度のクロスモーダルアライメントを保ちながら、新しいモダリティに容易に拡張可能である。
このシステムには、適応的なGPUロードバランシング、分散推論、動的モジュールオーケストレーション、総体的あるいはモダリティ固有の解析をサポートする設定可能なモードが含まれている。
大規模クラウドデプロイメントに最適化されたUni-Parserは、8 x NVIDIA RTX 4090D GPU上で、毎秒最大20 PDFページの処理速度を実現し、数十億ページにわたるコスト効率の高い推論を可能にする。
このレベルのスケーラビリティは、文学検索や要約から化学構造、反応スキーム、生物活動データの抽出、次世代の大規模言語モデルとAI4Scienceモデルを訓練するための大規模コーパスのキュレーションまで幅広い下流応用を促進する。
関連論文リスト
- Chart2Code-MoLA: Efficient Multi-Modal Code Generation via Adaptive Expert Routing [20.521717930460692]
C2C-MoLAは、Low-Rank Adaptation (LoRA)とMixture of Experts (MoE)を相乗化するフレームワークである
LoRAは、リソースを意識したチューニングのためのパラメータ効率の更新を可能にする。
Chart2Code-160kの実験では、提案されたモデルにより生成精度が最大17%向上した。
論文 参考訳(メタデータ) (2025-11-28T16:23:04Z) - Automated Invoice Data Extraction: Using LLM and OCR [0.0]
この研究は、OCR、ディープラーニング、LLM(Large Language Models)、グラフ分析を組み合わせた総合人工知能(AI)プラットフォームを導入し、前例のない抽出品質と一貫性を実現する。
論文 参考訳(メタデータ) (2025-11-01T19:05:09Z) - LeMat-Synth: a multi-modal toolbox to curate broad synthesis procedure databases from scientific literature [60.879220305044726]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を用いて合成手順と性能データを自動抽出・整理するマルチモーダルツールボックスを提案する。
LeMat-Synth (v 1.0):35種類の合成法と16種類の材料クラスにまたがる合成手順を含むデータセット。
我々は,新しいコーパスと合成ドメインへのコミュニティ主導の拡張をサポートするために設計された,モジュール形式のオープンソースライブラリをリリースする。
論文 参考訳(メタデータ) (2025-10-28T17:58:18Z) - Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.6168147650666682]
GPT-4のような1.8兆のパラメータを持つ大規模言語モデル(LLM)は、データセンターアーキテクチャの根本的な再考を要求する。
我々の研究は、FLOPS、帯域幅と容量、複数のネットワークトポロジを共同で探求する包括的な協調設計フレームワークを提供する。
我々は、重なり合う計算と通信の利点を定量化し、ハードウェアアクセラレーションされた集合体を活用し、スケールアウト領域を広げ、メモリ容量を増大させる。
論文 参考訳(メタデータ) (2025-06-17T22:29:37Z) - Reshaping MOFs text mining with a dynamic multi-agents framework of large language model [4.285805877963645]
原記事や結晶コードを読み取って,それらを標準化された合成表に変換する,大規模言語駆動システムMOFh6を提案する。
MOFh6は、99%の抽出精度を達成し、5大出版社で94.1%の短縮を解決し、0.93 +/- 0.01の精度を維持した。
論文 参考訳(メタデータ) (2025-04-26T09:55:04Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Modular Multimodal Machine Learning for Extraction of Theorems and Proofs in Long Scientific Documents (Extended Version) [0.0]
学術的なPDF論文から数学的ステートメントの抽出とその証明をマルチモーダルな分類問題として扱う。
本稿では,定理のような環境や証明を抽出するモジュール型連続型マルチモーダル機械学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-18T07:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。