論文の概要: DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing
Learning Efficiency
- arxiv url: http://arxiv.org/abs/2311.05778v1
- Date: Thu, 9 Nov 2023 22:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:20:37.419922
- Title: DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing
Learning Efficiency
- Title(参考訳): ドナウホール:知識の調和と学習効率の最適化によるドナウスパシフィケーション
- Authors: Azhar Shaikh and Michael Cochez and Denis Diachkov and Michiel de
Rijcke and Sahar Yousefi
- Abstract要約: 本稿では,従来のモデルであるDONUTの限界に対処する,疎度なOCRフリービジュアル文書理解(VDU)モデルであるDONUT-holeを紹介する。
DONUTホールを創出する当社のパラダイムは,性能を保ちながらモデル密度を54%削減する。
- 参考スコア(独自算出の注目度): 5.006064616335817
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper introduces DONUT-hole, a sparse OCR-free visual document
understanding (VDU) model that addresses the limitations of its predecessor
model, dubbed DONUT. The DONUT model, leveraging a transformer architecture,
overcoming the challenges of separate optical character recognition (OCR) and
visual semantic understanding (VSU) components. However, its deployment in
production environments and edge devices is hindered by high memory and
computational demands, particularly in large-scale request services. To
overcome these challenges, we propose an optimization strategy based on
knowledge distillation and model pruning. Our paradigm to produce DONUT-hole,
reduces the model denisty by 54\% while preserving performance. We also achieve
a global representational similarity index between DONUT and DONUT-hole based
on centered kernel alignment (CKA) metric of 0.79. Moreover, we evaluate the
effectiveness of DONUT-hole in the document image key information extraction
(KIE) task, highlighting its potential for developing more efficient VDU
systems for logistic companies.
- Abstract(参考訳): 本稿では,従来のモデルであるDONUTの限界に対処する,疎いOCRフリービジュアル文書理解(VDU)モデルであるDONUT-holeを紹介する。
DONUTモデルはトランスフォーマーアーキテクチャを活用し、光学文字認識(OCR)と視覚意味理解(VSU)コンポーネントの分離という課題を克服する。
しかしながら、プロダクション環境やエッジデバイスへのデプロイメントは、特に大規模要求サービスにおいて、高いメモリと計算要求によって妨げられている。
これらの課題を克服するため,我々は知識蒸留とモデルプルーニングに基づく最適化戦略を提案する。
DONUTホールを創出する我々のパラダイムは、性能を保ちながらモデル密度を54 %削減する。
また,集中型カーネルアライメント(CKA)測定値0.79に基づいて,DONUTとDONUTホールのグローバルな表現類似度指数を得る。
さらに、文書画像キー情報抽出(KIE)タスクにおけるDONUTホールの有効性を評価し、ロジスティック企業のためのより効率的なVDUシステムの開発の可能性を明らかにする。
関連論文リスト
- Causal Context Adjustment Loss for Learned Image Compression [72.7300229848778]
近年,学習画像圧縮(lic)技術は,特にRD性能の点で従来の手法を上回りつつある。
現在の技術のほとんどは、自己回帰エントロピーモデルを備えたVAEベースで、デコードされた因果コンテキストを利用してRD性能を向上する。
本稿では,提案した因果文脈調整損失を用いて因果文脈を的確に調整する方法を初めて検討する。
論文 参考訳(メタデータ) (2024-10-07T09:08:32Z) - Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation [15.377463849213033]
EFAは、グローバルな非線型性の機能に焦点を当てた、新しいグローバルなコンテキストモデリングメカニズムである。
ISR法では,推論フェーズにおけるキー値の分解能を低減し,計算性能とトレードオフのギャップを軽減できる。
EDAFormerは、既存のトランスフォーマーベースのセマンティックセグメンテーションモデルと比較して、効率的な計算で最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-07-24T13:24:25Z) - Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。
HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文 参考訳(メタデータ) (2024-07-11T17:42:17Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Accurate and Structured Pruning for Efficient Automatic Speech
Recognition [23.897482741744117]
本稿では,コンバータモデルのモデルサイズと推論コストを削減するための新しい圧縮手法を提案する。
提案手法は, モデルサイズを50%削減し, 推論コストを28%削減し, 性能損失を最小限に抑える。
論文 参考訳(メタデータ) (2023-05-31T04:31:16Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z) - Controllable Textual Inversion for Personalized Text-to-Image Generation [24.18758951295929]
テキスト・インバージョン(TI)は、ユーザ定義、未確認、ロングテールの概念トークンを含むプロンプトの生成をパーソナライズする効果的な手法として提案されている。
本研究では、上記の問題を全て解決し、堅牢で、データ効率が高く、使いやすいフレームワークを提供するために、制御可能なテキスト・インバージョン(COTI)と呼ばれる高機能なTIを提案する。
論文 参考訳(メタデータ) (2023-04-11T14:56:44Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - Hierarchical and Efficient Learning for Person Re-Identification [19.172946887940874]
階層的大域的, 部分的, 回復的特徴を複数の損失結合の監督の下で学習する, 階層的, 効率的なネットワーク(HENet)を提案する。
また,RPE (Random Polygon Erasing) と呼ばれる新しいデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2020-05-18T15:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。