論文の概要: From Plausibility to Verifiability: Risk-Controlled Generative OCR for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.19790v1
- Date: Fri, 20 Mar 2026 09:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.082857
- Title: From Plausibility to Verifiability: Risk-Controlled Generative OCR for Vision-Language Models
- Title(参考訳): 可塑性から検証可能性へ:ビジョン言語モデルにおけるリスク制御型生成型OCR
- Authors: Weile Gong, Yiping Zuo, Zijian Lu, Xin He, Weibei Fan, Chen Dai,
- Abstract要約: 現代の視覚言語モデル(VLM)は、生成型OCRエンジンとして機能するが、オープンエンドの復号化は希少な失敗を露呈する。
我々は、生成型OCRにおける中核配置ミスアライメントを特定し、モデルに依存しない幾何リスクコントローラを提案する。
凍結したVLMバックボーンと標準OCRベンチマークの実験では、予測可能なカバレッジコストにおいて、極端なエラーリスクと破滅的なオーバージェネレーションが一貫した減少を示す。
- 参考スコア(独自算出の注目度): 13.2889725132666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern vision-language models (VLMs) can act as generative OCR engines, yet open-ended decoding can expose rare but consequential failures. We identify a core deployment misalignment in generative OCR. Autoregressive decoding favors semantic plausibility, whereas OCR requires outputs that are visually grounded and geometrically verifiable. This mismatch produces severe errors, especially over-generation and unsupported substitutions, creating deployment risk even when benchmark accuracy remains high. We therefore formulate frozen VLM OCR as a selective accept/abstain problem and propose a model-agnostic Geometric Risk Controller. The controller probes multiple structured views of the same input, applies lightweight structural screening, and accepts a transcription only when cross-view consensus and stability satisfy predefined criteria, yielding a small family of operating points. Experiments on frozen VLM backbones and standard OCR benchmarks show consistent reductions in extreme-error risk and catastrophic over-generation at predictable coverage costs. Reliable deployment of generative OCR with frozen VLMs benefits from explicit system-level risk control rather than unconstrained generation.
- Abstract(参考訳): 現代の視覚言語モデル(VLM)は、生成型OCRエンジンとして機能するが、オープンエンドの復号化は希少な失敗を露呈する。
生成型OCRにおける中核配置ミスアライメントを同定する。
自己回帰復号法は意味的妥当性を好んでおり、OCRは視覚的に接地し幾何学的に検証可能な出力を必要とする。
このミスマッチは、特にオーバージェネレーションやサポートされていない置換といった重大なエラーを発生させ、ベンチマーク精度が高い場合でもデプロイメントリスクを発生させる。
そこで我々は,凍結型VLM OCRを選択的アクセプション/アビスタンス問題として定式化し,モデルに依存しない幾何学的リスクコントローラを提案する。
コントローラは、同一入力の複数の構造化ビューをプローブし、軽量な構造スクリーニングを適用し、クロスビューコンセンサスと安定性が予め定義された基準を満たす場合にのみ転写を受け、少数の操作点を出力する。
凍結したVLMバックボーンと標準OCRベンチマークの実験では、予測可能なカバレッジコストにおいて、極端なエラーリスクと破滅的なオーバージェネレーションが一貫した減少を示す。
凍結型VLMによる生成型OCRの信頼性の高い展開は、制約のない生成ではなく、明示的なシステムレベルのリスク制御の恩恵を受ける。
関連論文リスト
- TopoReformer: Mitigating Adversarial Attacks Using Topological Purification in OCR Models [2.8272661103123258]
テキストの逆摂動画像は、OCRシステムが人間の目に見えない変化から誤った書き起こしや誤った書き起こしを発生させる可能性がある。
既存の防御、例えば、敵の訓練、入力前処理、あるいは認識後の補正は、しばしばモデル固有であり、計算的に高価であり、摂動しない入力のパフォーマンスに影響する。
TopoReformerは、テキストイメージの構造的整合性を保ちながら、敵対的摂動を緩和するモデルに依存しない改革パイプラインである。
論文 参考訳(メタデータ) (2025-11-19T19:01:51Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Conditional Conformal Risk Adaptation [9.559062601251464]
セグメンテーションタスクの条件付きリスク制御を大幅に改善する適応予測セットを作成するための新しいスコア関数を開発する。
画素単位での包含推定の信頼性を高めるための特殊確率校正フレームワークを提案する。
ポリープセグメンテーション実験により, 3つの手法が有意な限界リスク制御を提供し, より一貫した条件リスク制御を実現することを示した。
論文 参考訳(メタデータ) (2025-04-10T10:01:06Z) - OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation [39.83221375597683]
Retrieval-augmented Generation (RAG)は、幻覚を抑えるために外部知識を統合することで、言語モデル(LLM)を強化する。
RAGの本質的な部分として、光学文字認識(OCR)を用いて構造化されていないPDF文書から構造化されたデータを抽出して外部知識ベースを構築することが一般的である。
本稿では,RAGシステムにおけるOCRのカスケード効果を理解するための最初のベンチマークであるOHRBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-03T17:23:47Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。