論文の概要: DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing
Learning Efficiency
- arxiv url: http://arxiv.org/abs/2311.05778v1
- Date: Thu, 9 Nov 2023 22:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:20:37.419922
- Title: DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing
Learning Efficiency
- Title(参考訳): ドナウホール:知識の調和と学習効率の最適化によるドナウスパシフィケーション
- Authors: Azhar Shaikh and Michael Cochez and Denis Diachkov and Michiel de
Rijcke and Sahar Yousefi
- Abstract要約: 本稿では,従来のモデルであるDONUTの限界に対処する,疎度なOCRフリービジュアル文書理解(VDU)モデルであるDONUT-holeを紹介する。
DONUTホールを創出する当社のパラダイムは,性能を保ちながらモデル密度を54%削減する。
- 参考スコア(独自算出の注目度): 5.006064616335817
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper introduces DONUT-hole, a sparse OCR-free visual document
understanding (VDU) model that addresses the limitations of its predecessor
model, dubbed DONUT. The DONUT model, leveraging a transformer architecture,
overcoming the challenges of separate optical character recognition (OCR) and
visual semantic understanding (VSU) components. However, its deployment in
production environments and edge devices is hindered by high memory and
computational demands, particularly in large-scale request services. To
overcome these challenges, we propose an optimization strategy based on
knowledge distillation and model pruning. Our paradigm to produce DONUT-hole,
reduces the model denisty by 54\% while preserving performance. We also achieve
a global representational similarity index between DONUT and DONUT-hole based
on centered kernel alignment (CKA) metric of 0.79. Moreover, we evaluate the
effectiveness of DONUT-hole in the document image key information extraction
(KIE) task, highlighting its potential for developing more efficient VDU
systems for logistic companies.
- Abstract(参考訳): 本稿では,従来のモデルであるDONUTの限界に対処する,疎いOCRフリービジュアル文書理解(VDU)モデルであるDONUT-holeを紹介する。
DONUTモデルはトランスフォーマーアーキテクチャを活用し、光学文字認識(OCR)と視覚意味理解(VSU)コンポーネントの分離という課題を克服する。
しかしながら、プロダクション環境やエッジデバイスへのデプロイメントは、特に大規模要求サービスにおいて、高いメモリと計算要求によって妨げられている。
これらの課題を克服するため,我々は知識蒸留とモデルプルーニングに基づく最適化戦略を提案する。
DONUTホールを創出する我々のパラダイムは、性能を保ちながらモデル密度を54 %削減する。
また,集中型カーネルアライメント(CKA)測定値0.79に基づいて,DONUTとDONUTホールのグローバルな表現類似度指数を得る。
さらに、文書画像キー情報抽出(KIE)タスクにおけるDONUTホールの有効性を評価し、ロジスティック企業のためのより効率的なVDUシステムの開発の可能性を明らかにする。
関連論文リスト
- PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - CR-VAE: Contrastive Regularization on Variational Autoencoders for
Preventing Posterior Collapse [1.0044057719679085]
変分オートエンコーダ(VAE)は, テクスト後部崩壊現象に悩まされていることが知られている
変分オートエンコーダ(CR-VAE)のコントラスト正規化という新しい解を提案する。
論文 参考訳(メタデータ) (2023-09-06T13:05:42Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Accurate and Structured Pruning for Efficient Automatic Speech
Recognition [23.897482741744117]
本稿では,コンバータモデルのモデルサイズと推論コストを削減するための新しい圧縮手法を提案する。
提案手法は, モデルサイズを50%削減し, 推論コストを28%削減し, 性能損失を最小限に抑える。
論文 参考訳(メタデータ) (2023-05-31T04:31:16Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z) - Controllable Textual Inversion for Personalized Text-to-Image Generation [24.18758951295929]
テキスト・インバージョン(TI)は、ユーザ定義、未確認、ロングテールの概念トークンを含むプロンプトの生成をパーソナライズする効果的な手法として提案されている。
本研究では、上記の問題を全て解決し、堅牢で、データ効率が高く、使いやすいフレームワークを提供するために、制御可能なテキスト・インバージョン(COTI)と呼ばれる高機能なTIを提案する。
論文 参考訳(メタデータ) (2023-04-11T14:56:44Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - Momentum Contrastive Autoencoder: Using Contrastive Learning for Latent
Space Distribution Matching in WAE [51.09507030387935]
Wasserstein autoencoder (WAE) は、2つの分布が一致することは、このAEの潜在空間が予め指定された事前分布と一致するという制約の下で、単純なオートエンコーダ(AE)損失を最小限にすることと同値であることを示している。
本稿では,この問題を解決する手段として,自己指導型表現学習に有効であることを示すコントラスト学習フレームワークを提案する。
WAEの損失を最適化するために、対照的な学習フレームワークを使用することで、WAEの一般的なアルゴリズムと比較して、より高速に収束し、より安定した最適化が達成できることを示す。
論文 参考訳(メタデータ) (2021-10-19T22:55:47Z) - Hierarchical Variational Autoencoder for Visual Counterfactuals [79.86967775454316]
条件変量オート(VAE)は、説明可能な人工知能(XAI)ツールとして注目されている。
本稿では, 後部の効果がいかに緩和され, 対物的効果が成功するかを示す。
本稿では,アプリケーション内の分類器を視覚的に監査できる階層型VAEについて紹介する。
論文 参考訳(メタデータ) (2021-02-01T14:07:11Z) - Hierarchical and Efficient Learning for Person Re-Identification [19.172946887940874]
階層的大域的, 部分的, 回復的特徴を複数の損失結合の監督の下で学習する, 階層的, 効率的なネットワーク(HENet)を提案する。
また,RPE (Random Polygon Erasing) と呼ばれる新しいデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2020-05-18T15:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。