論文の概要: Entropy Heat-Mapping: Localizing GPT-Based OCR Errors with Sliding-Window Shannon Analysis
- arxiv url: http://arxiv.org/abs/2505.00746v1
- Date: Wed, 30 Apr 2025 09:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.768193
- Title: Entropy Heat-Mapping: Localizing GPT-Based OCR Errors with Sliding-Window Shannon Analysis
- Title(参考訳): エントロピーヒートマッピング:スライディング・ウィンド・シャノン解析によるGPT型OCR誤差の定位
- Authors: Alexei Kaltchenko,
- Abstract要約: 本稿では,一対のシャノンエントロピーを視覚的「不確かさの風景」に変えるエントロピー・ヒート・マッピング・オブ・コンセプションを提案する。
強調したホットスポットとOpenAI GPT-4oによる実際の転写誤りを比較した。
この研究は、最小限に設計された設定において、スライドウインドウのエントロピーが、後編集型GPTベースのOCRの実用的で軽量な助けとなることを実証している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models such as OpenAI GPT-4o can transcribe mathematical documents directly from images, yet their token-level confidence signals are seldom used to pinpoint local recognition mistakes. We present an entropy-heat-mapping proof-of-concept that turns per-token Shannon entropy into a visual ''uncertainty landscape''. By scanning the entropy sequence with a fixed-length sliding window, we obtain hotspots that are likely to contain OCR errors such as missing symbols, mismatched braces, or garbled prose. Using a small, curated set of scanned research pages rendered at several resolutions, we compare the highlighted hotspots with the actual transcription errors produced by GPT-4o. Our analysis shows that the vast majority of true errors are indeed concentrated inside the high-entropy regions. This study demonstrates--in a minimally engineered setting--that sliding-window entropy can serve as a practical, lightweight aid for post-editing GPT-based OCR. All code, sample data, and annotation guidelines are released to encourage replication and further research.
- Abstract(参考訳): OpenAI GPT-4oのような視覚言語モデルは、画像から直接数学的文書を転写することができるが、トークンレベルの信頼信号は、局所的な認識ミスの特定にはほとんど使われない。
本稿では,一対のシャノンエントロピーを視覚的な「不確実な風景」に変えるエントロピー・ヒート・マッピング・オブ・コンセプションを提案する。
固定長のスライディングウィンドウでエントロピーシーケンスを走査することにより、欠落したシンボル、ミスマッチした括弧、ガーブレード散布などのOCRエラーを含む可能性のあるホットスポットを得る。
いくつかの解像度で描画された小さなスキャンされた研究ページを用いて、強調されたホットスポットとGPT-4oが生成した実際の転写エラーを比較した。
分析の結果,真の誤差の大部分は高エントロピー領域に集中していることがわかった。
この研究は、最小限に設計された設定において、スライドウインドウのエントロピーが、後編集型GPTベースのOCRの実用的で軽量な助けとなることを実証している。
すべてのコード、サンプルデータ、アノテーションガイドラインがリリースされ、レプリケーションとさらなる研究を促進する。
関連論文リスト
- TextSleuth: Towards Explainable Tampered Text Detection [49.88698441048043]
本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。
このタスクのデータギャップを埋めるため,大規模な包括的データセットETTDを提案する。
GPT4oで高品質な異常記述を生成するために、共同クエリが導入された。
低品質なアノテーションを自動的にフィルタリングするために、GPT4oに改ざんされたテキストを認識するよう促すことも提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:03Z) - An Entropy-based Text Watermarking Detection Method [41.40123238040657]
トークンエントロピーの影響は、透かし検出プロセスにおいて完全に考慮すべきである。
我々は,textbfEntropy-based TextbfWatermarking textbfEWD (textbfEWD)を提案する。
論文 参考訳(メタデータ) (2024-03-20T10:40:01Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - Anomaly Detection in Automated Fibre Placement: Learning with Data
Limitations [3.103778949672542]
自動繊維配置における欠陥検出と局所化のための包括的枠組みを提案する。
我々のアプローチは教師なしのディープラーニングと古典的なコンピュータビジョンアルゴリズムを組み合わせる。
様々な表面の問題を効率よく検出し、訓練のために複合部品のイメージを少なくする。
論文 参考訳(メタデータ) (2023-07-15T22:13:36Z) - Hard-normal Example-aware Template Mutual Matching for Industrial Anomaly Detection [78.734927709231]
異常検出器は、クエリー画像の未知の欠陥を検出し、ローカライズするために工業製造で広く使われている。
これらの検出器は異常のないサンプルで訓練され、ほとんどの通常のサンプルと区別された異常を成功させた。
しかし、ハードノーマルな例は、ほとんどの通常のサンプルから遠く離れており、しばしば既存の方法によって異常と誤認される。
論文 参考訳(メタデータ) (2023-03-28T17:54:56Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。