論文の概要: Entropy Heat-Mapping: Localizing GPT-Based OCR Errors with Sliding-Window Shannon Analysis
- arxiv url: http://arxiv.org/abs/2505.00746v1
- Date: Wed, 30 Apr 2025 09:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.768193
- Title: Entropy Heat-Mapping: Localizing GPT-Based OCR Errors with Sliding-Window Shannon Analysis
- Title(参考訳): エントロピーヒートマッピング:スライディング・ウィンド・シャノン解析によるGPT型OCR誤差の定位
- Authors: Alexei Kaltchenko,
- Abstract要約: 本稿では,一対のシャノンエントロピーを視覚的「不確かさの風景」に変えるエントロピー・ヒート・マッピング・オブ・コンセプションを提案する。
強調したホットスポットとOpenAI GPT-4oによる実際の転写誤りを比較した。
この研究は、最小限に設計された設定において、スライドウインドウのエントロピーが、後編集型GPTベースのOCRの実用的で軽量な助けとなることを実証している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models such as OpenAI GPT-4o can transcribe mathematical documents directly from images, yet their token-level confidence signals are seldom used to pinpoint local recognition mistakes. We present an entropy-heat-mapping proof-of-concept that turns per-token Shannon entropy into a visual ''uncertainty landscape''. By scanning the entropy sequence with a fixed-length sliding window, we obtain hotspots that are likely to contain OCR errors such as missing symbols, mismatched braces, or garbled prose. Using a small, curated set of scanned research pages rendered at several resolutions, we compare the highlighted hotspots with the actual transcription errors produced by GPT-4o. Our analysis shows that the vast majority of true errors are indeed concentrated inside the high-entropy regions. This study demonstrates--in a minimally engineered setting--that sliding-window entropy can serve as a practical, lightweight aid for post-editing GPT-based OCR. All code, sample data, and annotation guidelines are released to encourage replication and further research.
- Abstract(参考訳): OpenAI GPT-4oのような視覚言語モデルは、画像から直接数学的文書を転写することができるが、トークンレベルの信頼信号は、局所的な認識ミスの特定にはほとんど使われない。
本稿では,一対のシャノンエントロピーを視覚的な「不確実な風景」に変えるエントロピー・ヒート・マッピング・オブ・コンセプションを提案する。
固定長のスライディングウィンドウでエントロピーシーケンスを走査することにより、欠落したシンボル、ミスマッチした括弧、ガーブレード散布などのOCRエラーを含む可能性のあるホットスポットを得る。
いくつかの解像度で描画された小さなスキャンされた研究ページを用いて、強調されたホットスポットとGPT-4oが生成した実際の転写エラーを比較した。
分析の結果,真の誤差の大部分は高エントロピー領域に集中していることがわかった。
この研究は、最小限に設計された設定において、スライドウインドウのエントロピーが、後編集型GPTベースのOCRの実用的で軽量な助けとなることを実証している。
すべてのコード、サンプルデータ、アノテーションガイドラインがリリースされ、レプリケーションとさらなる研究を促進する。
関連論文リスト
- GUARD-CAN: Graph-Understanding and Recurrent Architecture for CAN Anomaly Detection [3.3148826359547514]
GUARD-CANはグラフに基づく表現学習と時系列モデリングを組み合わせた異常検出フレームワークである。
GUARD-CANはCANメッセージを固定長のウィンドウに分割し、各ウィンドウをメッセージ順序を保存するグラフに変換する。
提案モデルでは,複雑な特徴工学に頼ることなく,4種類のCAN攻撃を効果的に検出する。
論文 参考訳(メタデータ) (2025-07-29T09:52:54Z) - TextSleuth: Towards Explainable Tampered Text Detection [49.88698441048043]
本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。
このタスクのデータギャップを埋めるため,大規模な包括的データセットETTDを提案する。
GPT4oで高品質な異常記述を生成するために、共同クエリが導入された。
低品質なアノテーションを自動的にフィルタリングするために、GPT4oに改ざんされたテキストを認識するよう促すことも提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:03Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - An Entropy-based Text Watermarking Detection Method [41.40123238040657]
トークンエントロピーの影響は、透かし検出プロセスにおいて完全に考慮すべきである。
我々は,textbfEntropy-based TextbfWatermarking textbfEWD (textbfEWD)を提案する。
論文 参考訳(メタデータ) (2024-03-20T10:40:01Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - Anomaly Detection in Automated Fibre Placement: Learning with Data
Limitations [3.103778949672542]
自動繊維配置における欠陥検出と局所化のための包括的枠組みを提案する。
我々のアプローチは教師なしのディープラーニングと古典的なコンピュータビジョンアルゴリズムを組み合わせる。
様々な表面の問題を効率よく検出し、訓練のために複合部品のイメージを少なくする。
論文 参考訳(メタデータ) (2023-07-15T22:13:36Z) - Hard-normal Example-aware Template Mutual Matching for Industrial Anomaly Detection [78.734927709231]
異常検出器は、クエリー画像の未知の欠陥を検出し、ローカライズするために工業製造で広く使われている。
これらの検出器は異常のないサンプルで訓練され、ほとんどの通常のサンプルと区別された異常を成功させた。
しかし、ハードノーマルな例は、ほとんどの通常のサンプルから遠く離れており、しばしば既存の方法によって異常と誤認される。
論文 参考訳(メタデータ) (2023-03-28T17:54:56Z) - 3D Human Pose and Shape Regression with Pyramidal Mesh Alignment
Feedback Loop [128.07841893637337]
回帰に基づく手法は最近、単眼画像からヒトのメッシュを再構成する有望な結果を示した。
パラメータの小さな偏差は、推定メッシュと画像のエビデンスの間に顕著な不一致を引き起こす可能性がある。
本稿では,特徴ピラミッドを活用し,予測パラメータを補正するために,ピラミッドメッシュアライメントフィードバック(pymaf)ループを提案する。
論文 参考訳(メタデータ) (2021-03-30T17:07:49Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。