論文の概要: Interpret, prune and distill Donut : towards lightweight VLMs for VQA on document
- arxiv url: http://arxiv.org/abs/2509.26235v1
- Date: Tue, 30 Sep 2025 13:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.144783
- Title: Interpret, prune and distill Donut : towards lightweight VLMs for VQA on document
- Title(参考訳): ドナツの解釈, プーン, 蒸留 : VQA用軽量VLMに向けて
- Authors: Adnan Ben Mansour, Ayoub Karine, David Naccache,
- Abstract要約: 我々は,知識蒸留によるモデル圧縮について検討し,より大規模な教師からコンパクトな学生モデルを訓練する。
このフレームワーク内での学生アーキテクチャ設計を促進するために,機械的解釈可能性を活用している。
このアプローチによって、DocVQA上での強いパフォーマンスを維持しながら、推論時間とメモリ使用量を削減する、刈り取ったDonut-MINTが生成される。
- 参考スコア(独自算出の注目度): 1.733255162390776
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Visually-rich Document Understanding rely on large Vision-Language Models like Donut, which perform document-level Visual Question Answering without Optical Character Recognition. Despite their effectiveness, these models are too costly for real-time or resource-constrained applications. We investigate model compression through knowledge distillation, training compact student models from a larger teacher. We leverage mechanistic interpretability to drive student architecture design within this framework. By analyzing internal computations, we identify essential subcomponents to retain, while having a clear view of which subcomponents should be approximated, skipped, or reparametrized based on their function. This approach yields Donut-MINT (Mechanistic Interpretability-based Network Trimming), a pruned Donut variant that reduces inference time and memory usage while maintaining strong performance on DocVQA, a standard benchmark for document Visual Question Answering. Our method reframes compression as circuit discovery, bridging interpretability research and practical Vision-Language Model deployment.
- Abstract(参考訳): 最近のビジュアルリッチドキュメント理解の進歩は、光学的文字認識なしで文書レベルの視覚質問回答を実行するDonutのような大きな視覚言語モデルに依存している。
有効性にもかかわらず、これらのモデルはリアルタイムやリソース制約のあるアプリケーションには高すぎる。
我々は,知識蒸留によるモデル圧縮について検討し,より大規模な教師からコンパクトな学生モデルを訓練する。
このフレームワーク内での学生アーキテクチャ設計を促進するために,機械的解釈可能性を活用している。
内部計算を解析することにより、どのサブコンポーネントを近似するか、スキップするか、あるいはそれらの関数に基づいて再パラメータ化すべきかを明確にした上で、保持すべき必須サブコンポーネントを特定します。
このアプローチはDonut-MINT(Mechanistic Interpretability-based Network Trimming)という,ドキュメントビジュアル質問回答の標準ベンチマークであるDocVQA上での強いパフォーマンスを維持しながら,推論時間とメモリ使用量の削減を実現している。
本手法は, 回路探索, ブリッジング解釈可能性研究, 実用的なビジョン・ランゲージ・モデル展開として圧縮を再構成する。
関連論文リスト
- EdiVal-Agent: An Object-Centric Framework for Automated, Scalable, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentはマルチターン命令ベースの編集のための評価フレームワークである。
意味のあるオブジェクトを合成し、多様なコンテキスト対応の編集命令を合成する。
視覚言語モデルとオブジェクト検出器を統合して、指示に従うことを評価し、セマンティックレベルの特徴抽出器を使用してコンテンツの一貫性を評価し、人間の好みモデルを利用して視覚的品質を判断する。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - If Concept Bottlenecks are the Question, are Foundation Models the Answer? [20.91927788087174]
コンセプト・ボトルネック・モデル (Concept Bottleneck Models, CBM) は、アンテホックの解釈可能性と高性能を結合するように設計されたニューラルネットワークである。
VLM-CBMアーキテクチャは、手動アノテーションを基礎モデルからの弱い監督に置き換える。
我々は、最先端のVLM-CBMをテストに適用し、重要なメトリクスの選択を経験的に分析した。
論文 参考訳(メタデータ) (2025-04-28T13:18:48Z) - DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - DistilDoc: Knowledge Distillation for Visually-Rich Document Applications [22.847266820057985]
本研究は,文書レイアウト分析 (DLA) や文書画像分類 (DIC) など,視覚的にリッチな文書アプリケーションのための知識蒸留について検討する。
我々は、より大きなタスクパイプラインに不可欠な文書理解タスクにおいて、よりリーンでパフォーマンスの高いモデルのためのKD実験手法を設計する。
教師と学生の知識ギャップに影響を与えるものについて検討し、いくつかの方法(適応プロジェクタを用いたバニラKD、MSE、SimKD)が、教師付き学生の訓練より一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-12T13:55:12Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Layout and Task Aware Instruction Prompt for Zero-shot Document Image
Question Answering [13.942561172695815]
Claude や ChatGPT のような命令チューニング言語モデルでは,レイアウトを空間や線分で理解することができる。
本稿では,Alpaca などの小型命令学習モデルの性能向上を図るため,LATIN-Prompt (Layout and Task aware Instruction Prompt) を提案する。
論文 参考訳(メタデータ) (2023-06-01T10:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。