論文の概要: DocVAL: Validated Chain-of-Thought Distillation for Grounded Document VQA
- arxiv url: http://arxiv.org/abs/2511.22521v1
- Date: Thu, 27 Nov 2025 15:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.616086
- Title: DocVAL: Validated Chain-of-Thought Distillation for Grounded Document VQA
- Title(参考訳): DocVAL: 接地ドキュメンテーションVQAのチェーン・オブ・サート蒸留の検証
- Authors: Ahmad Mohammadshirazi, Pinaki Prasad Guha Neogi, Dheeraj Kulshrestha, Rajiv Ramnath,
- Abstract要約: 文書視覚質問応答(DocVQA)は、テキストの内容と空間的レイアウトを共同で推論するモデルを必要とする。
現在のシステムでは、高い精度-効率のトレードオフが示されており、大規模な教師モデルは強力な接地を達成するが、配備には高すぎる。
本稿では,大規模教員の空間推論能力を展開可能な学生用VLMに伝達する,実証された連鎖蒸留フレームワークDocVALを提案する。
- 参考スコア(独自算出の注目度): 1.580774794371876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document visual question answering (DocVQA) requires models to jointly reason over textual content and spatial layout, yet current systems exhibit a sharp accuracy--efficiency trade-off: large teacher models achieve strong grounding but are too expensive for deployment, while compact students suffer substantial drops in localization performance. We propose DocVAL, a validated chain-of-thought distillation framework that transfers the spatial reasoning ability of a large teacher into a deployable student VLM through three key components: (1) teacher supervision with validation-time text detection to filter and denoise training signals, (2) a multi-module validator (VAL) that enforces answer correctness and geometric consistency while producing fine-grained, pixel-level error feedback, and (3) a two-stage student training scheme that first learns from validated CoT traces and then undergoes iterative refinement driven by VAL feedback. Our student (Gemma-3 12B) achieves 91.4\% ANLS and 82.4\% mAP on DocVQA as a pure VLM requiring no text detection or OCR at inference. Extensive ablations demonstrate that validated feedback contributes 6.3 mAP gain and iterative refinement accounts for 9.7 mAP improvement. We release 95k high-quality, validator-verified CoT traces to advance spatial reasoning research in document understanding.
- Abstract(参考訳): 文書視覚質問応答(DocVQA)は、テキストの内容と空間的レイアウトを共同で推論するモデルを必要とするが、現在のシステムでは、高精度で効率のよいトレードオフが示されている。
本研究では,(1)教師の空間的推論能力を,(1)検証時間によるテキスト検出による教師の指導によるトレーニング信号のフィルタリングと識別,(2)微粒な画素レベルのエラーフィードバックを発生させながら,回答の正しさと整合性を強制するマルチモジュール検証器(VAL),(3)検証されたCoTトレースから最初に学習し,VALフィードバックによって反復的改善を行う2段階の学生教育スキームであるDocVALを提案する。
我々の学生(Gemma-3 12B)は、テキスト検出やOCRの推論を必要としない純粋なVLMとしてDocVQA上で91.4\% ANLSと82.4\% mAPを達成する。
大規模な改善は、検証されたフィードバックが6.3mAPのゲインに寄与し、反復的な改善が9.7mAPの改善に寄与することを示している。
文書理解における空間推論研究を前進させるために,95kの高品質で検証済みのCoTトレースを公表した。
関連論文リスト
- Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models [79.01078135582127]
SPELLは、長文推論のためのスケーラブルでラベルなしの最適化を可能にする。
本稿では、文書長を徐々に向上させる自動カリキュラムと、モデルの進化する機能に質問の難しさを適応させる報奨関数を導入する。
論文 参考訳(メタデータ) (2025-09-28T13:08:10Z) - Toward Reproducible Cross-Backend Compatibility for Deep Learning: A Configuration-First Framework with Three-Tier Verification [1.5269986601063288]
本稿では,ディープラーニングシステムにおけるクロスバックエンド互換性を評価するための構成優先フレームワークを提案する。
このフレームワークはYAMLを使ったコードから実験を分離し、ライブラリモデルとリポジトリモデルの両方をサポートし、3層認証プロトコルを使用している。
ランの72.0%が通過し、ほとんどの不一致はより厳格な閾値で発生している。
論文 参考訳(メタデータ) (2025-08-29T16:28:28Z) - AssertCoder: LLM-Based Assertion Generation via Multimodal Specification Extraction [32.14733357890831]
本稿では,高品質なSVAを自動的に生成する新しい統合フレームワークAssertCoderを提案する。
AssertCoderは、不均一な仕様フォーマットを解析するために、モダリティに敏感な事前処理を使用する。
このフレームワークは、アサーションの品質を評価するために、突然変異に基づく評価アプローチを取り入れている。
論文 参考訳(メタデータ) (2025-07-14T14:43:14Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Improving Embedding Accuracy for Document Retrieval Using Entity Relationship Maps and Model-Aware Contrastive Sampling [0.0]
APEX-Embedding-7Bは、7ビリオンパラメータデコーダのみのテキスト特徴抽出モデルである。
このアプローチでは2つのトレーニング手法を採用して,現実の焦点を即時的に改善する。
本モデルでは,より長いコンテキスト文書検索タスクに対して,テキスト特徴抽出における最先端の標準を新たに確立する。
論文 参考訳(メタデータ) (2024-10-08T17:36:48Z) - Weighted KL-Divergence for Document Ranking Model Refinement [11.29398362479766]
本稿では,学生と教師モデルとの整合性を優先し,正と負の文書を適切に分離するKL発散項を再重み付けする。
本稿では,MS MARCO と BEIR データセットの損失関数の解析と評価を行い,その妥当性を実証する。
論文 参考訳(メタデータ) (2024-06-10T02:29:35Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z) - Compressing Visual-linguistic Model via Knowledge Distillation [43.73998154661652]
変圧器を用いた大規模視覚言語モデルを小型モデルに圧縮するための知識蒸留の研究を行う。
提案した蒸留は,画像キャプションおよび視覚的質問応答タスクにおける小型VLモデルの性能を有意に向上させることを示した。
論文 参考訳(メタデータ) (2021-04-05T18:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。