論文の概要: DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios
- arxiv url: http://arxiv.org/abs/2508.00311v1
- Date: Fri, 01 Aug 2025 04:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.737205
- Title: DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios
- Title(参考訳): DocTron-Formula:複雑・構造化シナリオにおける一般化式認識
- Authors: Yufeng Zhong, Zhixiong Zeng, Lei Chen, Longrong Yang, Liming Zheng, Jing Huang, Siqi Yang, Lin Ma,
- Abstract要約: 本稿では、一般的な視覚言語モデルに基づく統合フレームワークDocTron-Formulaを紹介する。
また、CSFormulaは、行、段落、ページレベルの多分野および構造的に複雑な公式を包含するデータセットである。
提案手法は, 様々なスタイル, 科学的領域, 複雑なレイアウトにまたがって, 最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 13.7336096589627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical Character Recognition (OCR) for mathematical formula is essential for the intelligent analysis of scientific literature. However, both task-specific and general vision-language models often struggle to handle the structural diversity, complexity, and real-world variability inherent in mathematical content. In this work, we present DocTron-Formula, a unified framework built upon general vision-language models, thereby eliminating the need for specialized architectures. Furthermore, we introduce CSFormula, a large-scale and challenging dataset that encompasses multidisciplinary and structurally complex formulas at the line, paragraph, and page levels. Through straightforward supervised fine-tuning, our approach achieves state-of-the-art performance across a variety of styles, scientific domains, and complex layouts. Experimental results demonstrate that our method not only surpasses specialized models in terms of accuracy and robustness, but also establishes a new paradigm for the automated understanding of complex scientific documents.
- Abstract(参考訳): 数学式のための光学文字認識(OCR)は、科学文献の知的解析に不可欠である。
しかしながら、タスク固有のモデルと一般的なビジョン言語モデルの両方は、数学的内容に固有の構造的多様性、複雑さ、実世界の変動性を扱うのに苦労することが多い。
本稿では,一般的な視覚言語モデル上に構築された統合フレームワークであるDocTron-Formulaについて述べる。
さらに、CSFormulaは大規模かつ挑戦的なデータセットであり、行、段落、ページレベルの多分野および構造的に複雑な公式を含む。
教師付き微調整により, 様々なスタイル, 科学的領域, 複雑なレイアウトにまたがって, 最先端の性能を実現する。
実験により,本手法は,精度と堅牢性の観点から専門モデルを上回るだけでなく,複雑な科学的文書の自動理解のための新たなパラダイムも確立した。
関連論文リスト
- Graph Foundation Models: A Comprehensive Survey [66.74249119139661]
Graph Foundation Models (GFMs)は、構造化データにスケーラブルで汎用的なインテリジェンスを提供することを目指している。
この調査は、GFMの概要を包括的に提供し、モジュラーフレームワークの下での多様な取り組みを統合する。
GFMは構造化データに対するオープンエンド推論の基盤となる。
論文 参考訳(メタデータ) (2025-05-21T05:08:00Z) - ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges [72.19809898215857]
ModelingBenchは、様々な領域にわたる数学モデリングの競争から、現実に着想を得たオープンエンドの問題を特徴付ける新しいベンチマークである。
これらのタスクには、自然言語を形式的な数学的定式化に翻訳し、適切なツールを適用し、構造化された防御可能なレポートを生成する必要がある。
ツール使用をコーディネートするマルチエージェントフレームワークである ModelingAgent も紹介します。
論文 参考訳(メタデータ) (2025-05-21T03:33:23Z) - Enhancing Abstractive Summarization of Scientific Papers Using Structure Information [6.414732533433283]
本稿では,学術論文における構造的機能の自動認識を活用する2段階の抽象的要約フレームワークを提案する。
第1段階では,多くの学術論文から章題を標準化し,構造関数認識のための大規模データセットを構築した。
第2段階では、Longformerを用いて、セクション間のリッチなコンテキスト関係をキャプチャし、コンテキスト対応の要約を生成する。
論文 参考訳(メタデータ) (2025-05-20T10:34:45Z) - GridMind: A Multi-Agent NLP Framework for Unified, Cross-Modal NFL Data Insights [0.0]
本稿では,Retrieval-Augmented Generation (RAG) と大規模言語モデル (LLM) を通じて構造化,半構造化,非構造化データを統一するフレームワークであるGridMindを紹介する。
このアプローチはマルチモーダル表現学習の進化する分野と一致する。
論文 参考訳(メタデータ) (2025-03-24T18:33:36Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models [9.37040822304535]
本稿は, 科学的な図形の解釈における重要な課題である, テキストと図形のきめ細かいアライメントに対処する。
本稿では,テキスト知識と視覚的要素の整合性を評価するための,新しいタスクであるFinal Integrity Verificationを紹介する。
論文 参考訳(メタデータ) (2024-07-26T09:35:36Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Categorical semiotics: Foundations for Knowledge Integration [0.0]
ディープラーニングアーキテクチャの定義と分析のための包括的なフレームワークを開発するという課題に取り組む。
我々の方法論は、ファジィ集合の宇宙の中で解釈されるエルレスマンのスケッチに類似したグラフィカル構造を用いる。
このアプローチは、決定論的および非決定論的ニューラルネットワーク設計の両方をエレガントに包含する統一理論を提供する。
論文 参考訳(メタデータ) (2024-04-01T23:19:01Z) - The complexity paradox: An analysis of modeling education through the
lens of complexity science [0.0]
私は複雑なシステムを研究するための理論的枠組みである複雑性科学のレンズから、モデリング教育を分析する。
教育文献をモデル化することによる複雑性に関する課題を再考し、複雑性の観点から議論し、モデリングを教える際の複雑性の試行を推奨する。
論文 参考訳(メタデータ) (2023-08-26T08:22:11Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Universal Information Extraction as Unified Semantic Matching [54.19974454019611]
情報抽出を,異なるタスクやスキーマで共有される構造化と概念化という,2つの能力に分割する。
このパラダイムに基づいて、統一意味マッチングフレームワークを用いて様々なIEタスクを普遍的にモデル化することを提案する。
このように、USMはスキーマと入力テキストを共同でエンコードし、サブ構造を一様に並列に抽出し、必要に応じてターゲット構造を制御できる。
論文 参考訳(メタデータ) (2023-01-09T11:51:31Z) - Interpretable Mixture of Experts [71.55701784196253]
Interpretable Mixture of Experts (IME)は本質的に解釈可能なモデリングフレームワークである。
IMEは単一の解釈可能なモデルよりも正確であることが示され、既存の最先端のDeep Neural Networks(DNN)と正確に比較できる。
IMEの説明は、ユーザスタディを通じて一般的に使われているポストホックな説明法と比較される。
論文 参考訳(メタデータ) (2022-06-05T06:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。