論文の概要: Reading Between the Lines: Abstaining from VLM-Generated OCR Errors via Latent Representation Probes
- arxiv url: http://arxiv.org/abs/2511.19806v1
- Date: Tue, 25 Nov 2025 00:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.214129
- Title: Reading Between the Lines: Abstaining from VLM-Generated OCR Errors via Latent Representation Probes
- Title(参考訳): 行間の読み書き:潜在表現プローブによるVLM生成OCRエラーからの取得
- Authors: Jihan Yao, Achin Kulshrestha, Nathalie Rauschmayr, Reed Roberts, Banghua Zhu, Yulia Tsvetkov, Federico Tombari,
- Abstract要約: 隠れ状態や注目パターンの軽量プローブを学習するためのLRP(Latent Representation Probing)を提案する。
LRPは、ベストベースラインよりも吸音精度を7.6%向上させる。
これにより、デプロイメント対応AIシステムを構築するための原則化されたフレームワークが確立される。
- 参考スコア(独自算出の注目度): 79.36545159724703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As VLMs are deployed in safety-critical applications, their ability to abstain from answering when uncertain becomes crucial for reliability, especially in Scene Text Visual Question Answering (STVQA) tasks. For example, OCR errors like misreading "50 mph" as "60 mph" could cause severe traffic accidents. This leads us to ask: Can VLMs know when they can't see? Existing abstention methods suggest pessimistic answers: they either rely on miscalibrated output probabilities or require semantic agreement unsuitable for OCR tasks. However, this failure may indicate we are looking in the wrong place: uncertainty signals could be hidden in VLMs' internal representations. Building on this insight, we propose Latent Representation Probing (LRP): training lightweight probes on hidden states or attention patterns. We explore three probe designs: concatenating representations across all layers, aggregating attention over visual tokens, and ensembling single layer probes by majority vote. Experiments on four benchmarks across image and video modalities show LRP improves abstention accuracy by 7.6\% over best baselines. Our analysis reveals: probes generalize across various uncertainty sources and datasets, and optimal signals emerge from intermediate rather than final layers. This establishes a principled framework for building deployment-ready AI systems by detecting confidence signals from internal states rather than unreliable outputs.
- Abstract(参考訳): VLMは安全クリティカルなアプリケーションにデプロイされるため、特にSTVQA(Scene Text Visual Question Answering)タスクにおいて、信頼性に不確実性が重要になった場合の応答を回避できる。
例えば、"50 mph"を"60 mph"と誤読するようなOCRエラーは、深刻な交通事故を引き起こす可能性がある。
VLMはいつ見ることができないのかを知ることができますか。
既存の棄権法は悲観的な答えを示唆する:それらは誤校正された出力確率に依存するか、OCRタスクには適さない意味的な合意を必要とする。
しかし、この失敗は、不確実性信号がVLMの内部表現に隠されている可能性があるという間違った場所を見ていることを示しているかもしれない。
この知見に基づいて、隠れ状態や注意パターンに関する軽量プローブのトレーニングを行うLRP(Latent Representation Probing)を提案する。
すべての層にまたがる表現の結合、視覚的トークンに対する注意の集約、多数決による単一層プローブのアンサンブルという3つのプローブ設計について検討する。
画像とビデオのモダリティにまたがる4つのベンチマークの実験では、LRPは最高のベースラインよりも7.6\%の吸収精度を向上させる。
プローブは様々な不確実性ソースやデータセットにまたがって一般化し、最終層ではなく中間層から最適な信号が現れる。
これにより、信頼性の低い出力ではなく、内部状態からの信頼性信号を検出することで、デプロイメント対応のAIシステムを構築するための原則的なフレームワークが確立される。
関連論文リスト
- Prune-Then-Plan: Step-Level Calibration for Stable Frontier Exploration in Embodied Question Answering [52.69447404069251]
大規模視覚言語モデル(VLM)は、オープン語彙推論のための強力なセマンティック先行情報を提供することにより、EQAエージェントの改良を行った。
ステップレベルキャリブレーションによる探索を安定化するフレームワークPrune-Then-Planを提案する。
論文 参考訳(メタデータ) (2025-11-24T22:50:50Z) - Seeing but Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs [72.8370367403852]
VLM(Vision-Language Models)は、視覚的質問応答などのマルチモーダルなタスクにおいて強力な結果を得るが、正しい視覚的証拠が存在する場合でも失敗する。
浅層は主にテキストに焦点が当てられているのに対し、深層はわずかながら確実に局所化されたエビデンス領域に寄与していることを示す。
我々は,選択的注意に基づくマスキングによる深層エビデンス領域の強調を行う推論時間介入を導入する。
論文 参考訳(メタデータ) (2025-10-20T17:31:09Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Can VLMs Recall Factual Associations From Visual References? [30.821053378797007]
視覚言語モデル(VLM)のマルチモーダルグラウンドリングにおける系統的欠陥を同定する。
VLMは、実体のイメージ表現に頼らざるを得ず、現実の知識を思い出す能力を持っている。
このようなリンク障害は、モデル内部状態における異なるパターンの表現と相関していることを示す。
論文 参考訳(メタデータ) (2025-08-22T16:47:37Z) - Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR [30.240680920617447]
我々は,OCRの不確かさを定量化するトレーニング不要なポスト推論手法であるConsensus Entropy (CE)を紹介した。
問題のあるサンプルを効果的に識別し、最良の出力を選択し、モデル強度を組み合わせる軽量なマルチモデルフレームワークを開発する。
論文 参考訳(メタデータ) (2025-04-15T11:51:18Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - Decompose and Compare Consistency: Measuring VLMs' Answer Reliability via Task-Decomposition Consistency Comparison [22.438863942925973]
信頼性測定のための分解・比較一貫性(DeCC)を提案する。
VLMの内部推論プロセスを用いて生成した直接解の一貫性を比較することにより、DeCCはVLMの直接解の信頼性を測定する。
論文 参考訳(メタデータ) (2024-07-10T17:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。