論文の概要: Robustness of Structured Data Extraction from Perspectively Distorted Documents
- arxiv url: http://arxiv.org/abs/2511.17607v1
- Date: Tue, 18 Nov 2025 07:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.288566
- Title: Robustness of Structured Data Extraction from Perspectively Distorted Documents
- Title(参考訳): 歪み文書からの構造化データのロバスト性
- Authors: Hyakka Nakada, Yoshiyasu Tanaka,
- Abstract要約: 現実の文書画像は通常、平面上で回転するだけでなく、視点的に歪んでいる。
本研究では, 現状技術モデルGemini-1.5-proのデータ抽出精度に対する摂動の影響について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Character Recognition (OCR) for data extraction from documents is essential to intelligent informatics, such as digitizing medical records and recognizing road signs. Multi-modal Large Language Models (LLMs) can solve this task and have shown remarkable performance. Recently, it has been noticed that the accuracy of data extraction by multi-modal LLMs can be affected when in-plane rotations are present in the documents. However, real-world document images are usually not only in-plane rotated but also perspectively distorted. This study investigates the impacts of such perturbations on the data extraction accuracy for the state-of-the-art model, Gemini-1.5-pro. Because perspective distortions have a high degree of freedom, designing experiments in the same manner as single-parametric rotations is difficult. We observed typical distortions of document images and showed that most of them approximately follow an isosceles-trapezoidal transformation, which allows us to evaluate distortions with a small number of parameters. We were able to reduce the number of independent parameters from eight to two, i.e. rotation angle and distortion ratio. Then, specific entities were extracted from synthetically generated sample documents with varying these parameters. As the performance of LLMs, we evaluated not only a character-recognition accuracy but also a structure-recognition accuracy. Whereas the former represents the classical indicators for optical character recognition, the latter is related to the correctness of reading order. In particular, the structure-recognition accuracy was found to be significantly degraded by document distortion. In addition, we found that this accuracy can be improved by a simple rotational correction. This insight will contribute to the practical use of multi-modal LLMs for OCR tasks.
- Abstract(参考訳): 文書からデータを取り出すための光学文字認識(OCR)は、医療記録のデジタル化や道路標識の認識といった知的な情報処理に不可欠である。
LLM(Multi-modal Large Language Models)はこの問題を解くことができ、優れた性能を示している。
近年,多モードLPMによるデータ抽出の精度は,文書中に面内回転が存在する場合にも影響することがわかった。
しかし、現実の文書画像は通常、平面上で回転するだけでなく、視点的に歪んでいる。
本研究では, 現状技術モデルGemini-1.5-proのデータ抽出精度に対する摂動の影響について検討した。
視点歪みは高い自由度を持つため、単一パラメトリック回転と同じ方法で実験を設計することは困難である。
文書画像の典型的な歪みを観察した結果,そのほとんどはアイソスセル・トラペゾイド変換に従っており,少ないパラメータで歪みを評価することができることがわかった。
独立パラメータの数を8つから2つに減らすことができた。
そして、これらのパラメータを変動させた合成標本文書から、特定の実体を抽出した。
LLMの性能として,文字認識精度だけでなく,構造認識精度も評価した。
前者は光学的文字認識の古典的指標を表すが、後者は読み順の正しさに関係している。
特に,文書歪みにより構造認識精度が著しく低下することが判明した。
さらに, 簡単な回転補正により, この精度を向上できることが判明した。
この知見は,OCRタスクにおけるマルチモーダルLLMの実用化に寄与する。
関連論文リスト
- Seeing Straight: Document Orientation Detection for Efficient OCR [2.7873355152549344]
OCR-回転ベンチ(OCR-Rotation-Bench, OCR-Rotation-Bench)は、OCRを画像回転に評価するための新しいベンチマークである。
Phi-3.5-Visionモデルのビジョンエンコーダ上に構築した高速で堅牢で軽量な回転分類パイプラインを提案する。
本手法は,両データセットの回転の同定において,ほぼ完全な 96% と 92% の精度を実現する。
論文 参考訳(メタデータ) (2025-11-06T08:04:57Z) - Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis [97.37770785712475]
オブジェクト検出のための世代ベースデバイアスフレームワークを提案する。
提案手法は,未表現オブジェクト群の性能ギャップを著しく狭める。
論文 参考訳(メタデータ) (2025-10-21T02:19:12Z) - Registration is a Powerful Rotation-Invariance Learner for 3D Anomaly Detection [64.0168648353038]
ポイントクラウドデータにおける3次元異常検出は、高い信頼性で構造欠陥を特定することを目的として、産業品質管理に不可欠である。
現在のメモリバンクベースの手法は、しばしば一貫性のない特徴変換と限定的な識別能力に悩まされる。
本稿では、ポイントクラウド登録とメモリベース異常検出の目的を統合した、登録による回転不変の特徴抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-19T14:56:38Z) - Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Mind the Gap: Analyzing Lacunae with Transformer-Based Transcription [2.486161976966064]
我々は、ラグネーを含む合成データに基づいて訓練されたトランスフォーマーベース光学文字認識(OCR)モデルを採用する。
本研究は,ラグナの検出および修復における有効性を示し,その成功率を65%とした。
論文 参考訳(メタデータ) (2024-06-28T22:52:39Z) - Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal Large Language Models (LLM) [0.0]
本研究では,文書スキューが3つの最先端マルチモーダルモデルのデータの抽出精度に与える影響について検討した。
モデル毎に安全な面内回転角(SIPRA)を同定し,スキューがモデル幻覚に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-06-13T08:55:01Z) - Produce Once, Utilize Twice for Anomaly Detection [6.501323305130114]
我々は、再構成ネットワークにおける識別情報電位を再利用することにより、精度と効率を両立させるPOUTAを導出する。
POUTAは、特別な設計をせずに、最先端の数発の異常検出方法よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2023-12-20T10:49:49Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - Learning High-Precision Bounding Box for Rotated Object Detection via
Kullback-Leibler Divergence [100.6913091147422]
既存の回転物体検出器は、主に水平検出パラダイムから受け継がれている。
本稿では,回転回帰損失の設計を帰納パラダイムから導出手法に変更することを目的としている。
論文 参考訳(メタデータ) (2021-06-03T14:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。