論文の概要: ABot-OCR Technical Report
- arxiv url: http://arxiv.org/abs/2605.27978v1
- Date: Wed, 27 May 2026 05:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.763476
- Title: ABot-OCR Technical Report
- Title(参考訳): ABot-OCR技術報告
- Authors: Kaitao Jiang, Ruiyan Gong, Xiaolong Cheng, Kangning Niu, Tianlun Li, Mu Xu,
- Abstract要約: ABot-OCRは、ページイメージを直接1つのフォワードパスでクリーンなマークダウンに書き起こす、エンドツーエンドのビジョン言語モデルである。
我々は大規模で構造的に一貫した監視を提供する専用データエンジンを開発した。
ABot-OCRは、すべてのエンドツーエンドシステムの中で92.81と93.30の最先端スコアを達成している。
- 参考スコア(独自算出の注目度): 1.2258341760650364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ABot-OCR, an end-to-end vision-language model that transcribes a page image directly into clean Markdown in a single forward pass. By doing so, our approach completely eliminates the need for brittle modular orchestration. To maximize parsing fidelity, we develop a dedicated data engine to provide large-scale, structurally consistent supervision. Furthermore, we propose Decoupled Heterogeneous Document Optimization, a structure-constrained reinforcement learning method that sharpens textual accuracy and strictly enforces markup well-formedness beyond supervised fine-tuning alone. Extensive evaluations demonstrate the superior performance of our framework. On the OmniDocBench v1.5 and v1.6 benchmarks, ABot-OCR achieves state-of-the-art scores of 92.81 and 93.30 among all end-to-end systems, substantially narrowing the performance gap relative to strong pipeline baselines. Finally, comprehensive multilingual text recognition across ten diverse languages further confirms the robust generalizability of ABot-OCR.
- Abstract(参考訳): ABot-OCRは、ページイメージを直接クリーンなMarkdownに1つのフォワードパスで書き起こす、エンドツーエンドの視覚言語モデルである。
これによって、当社のアプローチは、脆弱なモジュールオーケストレーションの必要性を完全に排除します。
解析精度を最大化するために,大規模かつ構造的に一貫した監視を行う専用データエンジンを開発した。
さらに,テキストの精度を向上し,教師付き微調整以外のマークアップ整形性を厳格に強制する構造制約強化学習手法であるDecoupled Heterogeneous Document Optimizationを提案する。
大規模な評価は、我々のフレームワークの優れた性能を示している。
OmniDocBench v1.5とv1.6ベンチマークでは、ABot-OCRは全てのエンドツーエンドシステムの中で92.81と93.30の最先端スコアを達成し、強力なパイプラインベースラインに対するパフォーマンスギャップを大幅に狭めている。
最後に,10言語にわたる包括的多言語テキスト認識は,ABot-OCRの堅牢な一般化性をさらに裏付ける。
関連論文リスト
- Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training [23.87978106727431]
本稿では、堅牢なエンドツーエンド文書解析のためのデータ学習協調設計フレームワークを提案する。
本手法は,スキャン・デジタル・実世界の両方のシナリオにおいて,精度とロバスト性を向上する。
論文 参考訳(メタデータ) (2026-03-25T03:19:09Z) - GLM-OCR Technical Report [65.42028025507491]
GLM-OCRは実世界の文書理解のために設計された効率的なコンパクトモデルである。
CogViTビジュアルエンコーダとGLM言語デコーダを組み合わせることで、計算効率と認識性能のバランスが強い。
公開ベンチマークと産業シナリオの大規模な評価は、GLM-OCRが競争力や最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-03-11T15:55:47Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - dots.ocr: Multilingual Document Layout Parsing in a Single Vision-Language Model [24.35392364602848]
dots.ocrは、統合されたエンドツーエンドフレームワーク内で3つのコアタスクを学習するビジョンランゲージモデルである。
これは、巨大な多言語コーパスを合成する高度にスケーラブルなデータエンジンによって実現されている。
統合パラダイムの有効性は,OmniDocBenchの最先端性能によって検証される。
論文 参考訳(メタデータ) (2025-12-02T07:42:38Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback [69.4639239117551]
FigCaps-HFは、新しいフィギュアキャプション生成フレームワークである。
本フレームワークは,1) 図形選択ペアの品質を評価するための自動手法,2) 人物フィードバックを用いた新しい強化学習(RLHF) により,読取者の好みに応じて生成図形選択モデルを最適化する。
論文 参考訳(メタデータ) (2023-07-20T13:40:22Z) - ATCSpeechNet: A multilingual end-to-end speech recognition framework for
air traffic control systems [15.527854608553824]
ATCSpeechNetは、航空交通制御システムにおけるコミュニケーション音声を人間可読テキストに変換する問題に取り組むために提案されている。
特徴工学や辞書を使わずに、音声波形を直接テキストに変換するエンドツーエンドのパラダイムが開発されている。
ATCSpeech corpusの実験結果から,非常に小さなラベル付きコーパスを用いて,提案手法が高い性能を実現することが示された。
論文 参考訳(メタデータ) (2021-02-17T02:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。