Fugu-MT 論文翻訳(概要): DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing Learning Efficiency

論文の概要: DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing Learning Efficiency

arxiv url: http://arxiv.org/abs/2311.05778v1
Date: Thu, 9 Nov 2023 22:49:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 16:20:37.419922
Title: DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing Learning Efficiency
Title（参考訳）: ドナウホール:知識の調和と学習効率の最適化によるドナウスパシフィケーション
Authors: Azhar Shaikh and Michael Cochez and Denis Diachkov and Michiel de Rijcke and Sahar Yousefi
Abstract要約: 本稿では,従来のモデルであるDONUTの限界に対処する,疎度なOCRフリービジュアル文書理解(VDU)モデルであるDONUT-holeを紹介する。 DONUTホールを創出する当社のパラダイムは,性能を保ちながらモデル密度を54%削減する。
参考スコア（独自算出の注目度）: 5.006064616335817
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: This paper introduces DONUT-hole, a sparse OCR-free visual document understanding (VDU) model that addresses the limitations of its predecessor model, dubbed DONUT. The DONUT model, leveraging a transformer architecture, overcoming the challenges of separate optical character recognition (OCR) and visual semantic understanding (VSU) components. However, its deployment in production environments and edge devices is hindered by high memory and computational demands, particularly in large-scale request services. To overcome these challenges, we propose an optimization strategy based on knowledge distillation and model pruning. Our paradigm to produce DONUT-hole, reduces the model denisty by 54\% while preserving performance. We also achieve a global representational similarity index between DONUT and DONUT-hole based on centered kernel alignment (CKA) metric of 0.79. Moreover, we evaluate the effectiveness of DONUT-hole in the document image key information extraction (KIE) task, highlighting its potential for developing more efficient VDU systems for logistic companies.
Abstract（参考訳）: 本稿では,従来のモデルであるDONUTの限界に対処する,疎いOCRフリービジュアル文書理解(VDU)モデルであるDONUT-holeを紹介する。 DONUTモデルはトランスフォーマーアーキテクチャを活用し、光学文字認識(OCR)と視覚意味理解(VSU)コンポーネントの分離という課題を克服する。しかしながら、プロダクション環境やエッジデバイスへのデプロイメントは、特に大規模要求サービスにおいて、高いメモリと計算要求によって妨げられている。これらの課題を克服するため,我々は知識蒸留とモデルプルーニングに基づく最適化戦略を提案する。 DONUTホールを創出する我々のパラダイムは、性能を保ちながらモデル密度を54 %削減する。また,集中型カーネルアライメント(CKA)測定値0.79に基づいて,DONUTとDONUTホールのグローバルな表現類似度指数を得る。さらに、文書画像キー情報抽出(KIE)タスクにおけるDONUTホールの有効性を評価し、ロジスティック企業のためのより効率的なVDUシステムの開発の可能性を明らかにする。

関連論文リスト

Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。 URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文参考訳（メタデータ） (2025-03-20T16:44:43Z)
Accurate Scene Text Recognition with Efficient Model Scaling and Cloze Self-Distillation [11.217033010884006]
我々はデコーダのスケーリングが、エンコーダのスケーリング単独で達成した以上の大きなパフォーマンス向上をもたらすことを示す。また,ラベルノイズがシーンテキスト認識,特に実世界のデータにおいて重要な課題であることも確認した。提案手法は,実データのみを用いて,11ベンチマーク中10ベンチマークにおいて,パラメータサイズと計算コストを大幅に削減する。
論文参考訳（メタデータ） (2025-03-20T14:35:46Z)
AI-in-the-Loop Sensing and Communication Joint Design for Edge Intelligence [65.29835430845893]
本稿では,AI-in-the-loopジョイントセンシングと通信によるエッジインテリジェンス向上のためのフレームワークを提案する。私たちの研究の重要な貢献は、バリデーション損失とシステムのチューニング可能なパラメータとの間に明確な関係を確立することです。提案手法は, 通信エネルギー消費を最大77%削減し, 試料数で測定した検知コストを最大52%削減する。
論文参考訳（メタデータ） (2025-02-14T14:56:58Z)
Causal Context Adjustment Loss for Learned Image Compression [72.7300229848778]
近年,学習画像圧縮(lic)技術は,特にRD性能の点で従来の手法を上回りつつある。現在の技術のほとんどは、自己回帰エントロピーモデルを備えたVAEベースで、デコードされた因果コンテキストを利用してRD性能を向上する。本稿では,提案した因果文脈調整損失を用いて因果文脈を的確に調整する方法を初めて検討する。
論文参考訳（メタデータ） (2024-10-07T09:08:32Z)
Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation [15.377463849213033]
EFAは、グローバルな非線型性の機能に焦点を当てた、新しいグローバルなコンテキストモデリングメカニズムである。 ISR法では,推論フェーズにおけるキー値の分解能を低減し,計算性能とトレードオフのギャップを軽減できる。 EDAFormerは、既存のトランスフォーマーベースのセマンティックセグメンテーションモデルと比較して、効率的な計算で最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-07-24T13:24:25Z)
Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文参考訳（メタデータ） (2024-07-18T10:26:53Z)
HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。 HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文参考訳（メタデータ） (2024-07-11T17:42:17Z)
PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文参考訳（メタデータ） (2023-10-18T02:59:57Z)
Accurate and Structured Pruning for Efficient Automatic Speech Recognition [23.897482741744117]
本稿では,コンバータモデルのモデルサイズと推論コストを削減するための新しい圧縮手法を提案する。提案手法は, モデルサイズを50%削減し, 推論コストを28%削減し, 性能損失を最小限に抑える。
論文参考訳（メタデータ） (2023-05-31T04:31:16Z)
Hierarchical State Abstraction Based on Structural Information Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。 SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文参考訳（メタデータ） (2023-04-24T11:06:52Z)
Controllable Textual Inversion for Personalized Text-to-Image Generation [24.18758951295929]
テキスト・インバージョン(TI)は、ユーザ定義、未確認、ロングテールの概念トークンを含むプロンプトの生成をパーソナライズする効果的な手法として提案されている。本研究では、上記の問題を全て解決し、堅牢で、データ効率が高く、使いやすいフレームワークを提供するために、制御可能なテキスト・インバージョン(COTI)と呼ばれる高機能なTIを提案する。
論文参考訳（メタデータ） (2023-04-11T14:56:44Z)
Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。 PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文参考訳（メタデータ） (2023-03-21T15:34:50Z)
Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-11-30T18:55:19Z)
Hierarchical and Efficient Learning for Person Re-Identification [19.172946887940874]
階層的大域的, 部分的, 回復的特徴を複数の損失結合の監督の下で学習する, 階層的, 効率的なネットワーク(HENet)を提案する。また,RPE (Random Polygon Erasing) と呼ばれる新しいデータセット拡張手法を提案する。
論文参考訳（メタデータ） (2020-05-18T15:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。