論文の概要: Uni-Parser Technical Report
- arxiv url: http://arxiv.org/abs/2512.15098v1
- Date: Wed, 17 Dec 2025 05:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.865254
- Title: Uni-Parser Technical Report
- Title(参考訳): Uni-Parserテクニカルレポート
- Authors: Xi Fang, Haoyi Tao, Shuwen Yang, Suyang Zhong, Haocheng Lu, Han Lyu, Chaozheng Huang, Xinyu Li, Linfeng Zhang, Guolin Ke,
- Abstract要約: 本報告では、科学文献や特許に適した産業レベルの文書解析エンジンUni-を紹介する。
Uni-はモジュラーで疎結合なマルチエキスパートアーキテクチャを採用しており、テキスト、方程式、表、図形、化学構造にまたがる微粒なクロスモーダルアライメントを保っている。
- 参考スコア(独自算出の注目度): 17.504358106516214
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This technical report introduces Uni-Parser, an industrial-grade document parsing engine tailored for scientific literature and patents, delivering high throughput, robust accuracy, and cost efficiency. Unlike pipeline-based document parsing methods, Uni-Parser employs a modular, loosely coupled multi-expert architecture that preserves fine-grained cross-modal alignments across text, equations, tables, figures, and chemical structures, while remaining easily extensible to emerging modalities. The system incorporates adaptive GPU load balancing, distributed inference, dynamic module orchestration, and configurable modes that support either holistic or modality-specific parsing. Optimized for large-scale cloud deployment, Uni-Parser achieves a processing rate of up to 20 PDF pages per second on 8 x NVIDIA RTX 4090D GPUs, enabling cost-efficient inference across billions of pages. This level of scalability facilitates a broad spectrum of downstream applications, ranging from literature retrieval and summarization to the extraction of chemical structures, reaction schemes, and bioactivity data, as well as the curation of large-scale corpora for training next-generation large language models and AI4Science models.
- Abstract(参考訳): この技術レポートでは、Uni-Parserを紹介します。Uni-Parserは、科学文献や特許に適した産業レベルの文書解析エンジンで、高いスループット、堅牢な精度、コスト効率を提供します。
パイプラインベースの文書解析法とは異なり、Uni-Parserはモジュラーで疎結合なマルチエキスパートアーキテクチャを採用しており、テキスト、方程式、表、図形、化学構造にまたがる細粒度のクロスモーダルアライメントを保ちながら、新しいモダリティに容易に拡張可能である。
このシステムには、適応的なGPUロードバランシング、分散推論、動的モジュールオーケストレーション、総体的あるいはモダリティ固有の解析をサポートする設定可能なモードが含まれている。
大規模クラウドデプロイメントに最適化されたUni-Parserは、8 x NVIDIA RTX 4090D GPU上で、毎秒最大20 PDFページの処理速度を実現し、数十億ページにわたるコスト効率の高い推論を可能にする。
このレベルのスケーラビリティは、文学検索や要約から化学構造、反応スキーム、生物活動データの抽出、次世代の大規模言語モデルとAI4Scienceモデルを訓練するための大規模コーパスのキュレーションまで幅広い下流応用を促進する。
関連論文リスト
- Chart2Code-MoLA: Efficient Multi-Modal Code Generation via Adaptive Expert Routing [20.521717930460692]
C2C-MoLAは、Low-Rank Adaptation (LoRA)とMixture of Experts (MoE)を相乗化するフレームワークである
LoRAは、リソースを意識したチューニングのためのパラメータ効率の更新を可能にする。
Chart2Code-160kの実験では、提案されたモデルにより生成精度が最大17%向上した。
論文 参考訳(メタデータ) (2025-11-28T16:23:04Z) - Automated Invoice Data Extraction: Using LLM and OCR [0.0]
この研究は、OCR、ディープラーニング、LLM(Large Language Models)、グラフ分析を組み合わせた総合人工知能(AI)プラットフォームを導入し、前例のない抽出品質と一貫性を実現する。
論文 参考訳(メタデータ) (2025-11-01T19:05:09Z) - LeMat-Synth: a multi-modal toolbox to curate broad synthesis procedure databases from scientific literature [60.879220305044726]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を用いて合成手順と性能データを自動抽出・整理するマルチモーダルツールボックスを提案する。
LeMat-Synth (v 1.0):35種類の合成法と16種類の材料クラスにまたがる合成手順を含むデータセット。
我々は,新しいコーパスと合成ドメインへのコミュニティ主導の拡張をサポートするために設計された,モジュール形式のオープンソースライブラリをリリースする。
論文 参考訳(メタデータ) (2025-10-28T17:58:18Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Logics-Parsing Technical Report [8.982345117231661]
我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。
本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。
LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
論文 参考訳(メタデータ) (2025-09-24T04:54:37Z) - Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.6168147650666682]
GPT-4のような1.8兆のパラメータを持つ大規模言語モデル(LLM)は、データセンターアーキテクチャの根本的な再考を要求する。
我々の研究は、FLOPS、帯域幅と容量、複数のネットワークトポロジを共同で探求する包括的な協調設計フレームワークを提供する。
我々は、重なり合う計算と通信の利点を定量化し、ハードウェアアクセラレーションされた集合体を活用し、スケールアウト領域を広げ、メモリ容量を増大させる。
論文 参考訳(メタデータ) (2025-06-17T22:29:37Z) - Reshaping MOFs text mining with a dynamic multi-agents framework of large language model [4.285805877963645]
原記事や結晶コードを読み取って,それらを標準化された合成表に変換する,大規模言語駆動システムMOFh6を提案する。
MOFh6は、99%の抽出精度を達成し、5大出版社で94.1%の短縮を解決し、0.93 +/- 0.01の精度を維持した。
論文 参考訳(メタデータ) (2025-04-26T09:55:04Z) - Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。
我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。
我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文 参考訳(メタデータ) (2025-04-17T17:49:40Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Modular Multimodal Machine Learning for Extraction of Theorems and Proofs in Long Scientific Documents (Extended Version) [0.0]
学術的なPDF論文から数学的ステートメントの抽出とその証明をマルチモーダルな分類問題として扱う。
本稿では,定理のような環境や証明を抽出するモジュール型連続型マルチモーダル機械学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-18T07:59:37Z) - VAULT: VAriable Unified Long Text Representation for Machine Reading
Comprehension [31.639069657951747]
機械読取の既存のモデルは、段落表現と分類で長いテキストをモデル化するために複雑なモデルアーキテクチャを必要とする。
長文入力からの文脈化表現に基づく,MDC の軽量かつ並列効率なパラメタ表現 VAULT を提案する。
論文 参考訳(メタデータ) (2021-05-07T13:03:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。