論文の概要: DistilDoc: Knowledge Distillation for Visually-Rich Document Applications
- arxiv url: http://arxiv.org/abs/2406.08226v1
- Date: Wed, 12 Jun 2024 13:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:36:08.339072
- Title: DistilDoc: Knowledge Distillation for Visually-Rich Document Applications
- Title(参考訳): DistilDoc:ビジュアルリッチなドキュメントアプリケーションのための知識蒸留
- Authors: Jordy Van Landeghem, Subhajit Maity, Ayan Banerjee, Matthew Blaschko, Marie-Francine Moens, Josep Lladós, Sanket Biswas,
- Abstract要約: 本研究は,文書レイアウト分析 (DLA) や文書画像分類 (DIC) など,視覚的にリッチな文書アプリケーションのための知識蒸留について検討する。
我々は、より大きなタスクパイプラインに不可欠な文書理解タスクにおいて、よりリーンでパフォーマンスの高いモデルのためのKD実験手法を設計する。
教師と学生の知識ギャップに影響を与えるものについて検討し、いくつかの方法(適応プロジェクタを用いたバニラKD、MSE、SimKD)が、教師付き学生の訓練より一貫して優れていることを発見した。
- 参考スコア(独自算出の注目度): 22.847266820057985
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work explores knowledge distillation (KD) for visually-rich document (VRD) applications such as document layout analysis (DLA) and document image classification (DIC). While VRD research is dependent on increasingly sophisticated and cumbersome models, the field has neglected to study efficiency via model compression. Here, we design a KD experimentation methodology for more lean, performant models on document understanding (DU) tasks that are integral within larger task pipelines. We carefully selected KD strategies (response-based, feature-based) for distilling knowledge to and from backbones with different architectures (ResNet, ViT, DiT) and capacities (base, small, tiny). We study what affects the teacher-student knowledge gap and find that some methods (tuned vanilla KD, MSE, SimKD with an apt projector) can consistently outperform supervised student training. Furthermore, we design downstream task setups to evaluate covariate shift and the robustness of distilled DLA models on zero-shot layout-aware document visual question answering (DocVQA). DLA-KD experiments result in a large mAP knowledge gap, which unpredictably translates to downstream robustness, accentuating the need to further explore how to efficiently obtain more semantic document layout awareness.
- Abstract(参考訳): 本研究では,文書レイアウト解析 (DLA) や文書画像分類 (DIC) など,視覚的にリッチなドキュメント (VRD) アプリケーションのための知識蒸留 (KD) について検討する。
VRDの研究はますます高度で面倒なモデルに依存しているが、モデル圧縮による効率の研究は無視されてきた。
そこで我々は,文書理解(DU)タスクにおけるよりリーンでパフォーマンスの高いモデルのためのKD実験手法を設計する。
我々は,異なるアーキテクチャ (ResNet, ViT, DiT) と容量 (ベース, 小型, 小型) のバックボーンから知識を抽出するためのKD戦略 (応答ベース, 機能ベース) を慎重に選択した。
教師と学生の知識ギャップに影響を与えるものについて検討し、いくつかの方法(適応プロジェクタを用いたバニラKD、MSE、SimKD)が、教師付き学生の訓練より一貫して優れていることを発見した。
さらに,ゼロショットレイアウト対応文書視覚質問応答(DocVQA)に基づく蒸留DLAモデルの共変量シフトとロバスト性を評価するために,下流タスク設定を設計する。
DLA-KD実験は、予測不能に下流のロバスト性に変換される大きなmAP知識ギャップをもたらし、よりセマンティックな文書レイアウトの認識をより効率的に得る方法を探る必要性を強調させる。
関連論文リスト
- TIE-KD: Teacher-Independent and Explainable Knowledge Distillation for
Monocular Depth Estimation [1.03590082373586]
本稿では、複雑な教師モデルからコンパクトな学生ネットワークへの知識伝達を合理化するTIE-KD(Teacher-Independent Explainable Knowledge Distillation)フレームワークを紹介する。
TIE-KDの基盤はDPM(Depth Probability Map)であり、教師の出力を解釈する説明可能な特徴マップである。
KITTIデータセットの大規模な評価は、TIE-KDが従来の応答に基づくKD法より優れているだけでなく、多様な教師や学生のアーキテクチャで一貫した有効性を示すことを示している。
論文 参考訳(メタデータ) (2024-02-22T07:17:30Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - Extracting knowledge from features with multilevel abstraction [3.4443503349903124]
自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。
本稿では,本手法と異なる方法で,新しいSKD手法を提案する。
実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
論文 参考訳(メタデータ) (2021-12-04T02:25:46Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。