論文の概要: Efficient Multi-domain Text Recognition Deep Neural Network
Parameterization with Residual Adapters
- arxiv url: http://arxiv.org/abs/2401.00971v1
- Date: Mon, 1 Jan 2024 23:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:13:34.685961
- Title: Efficient Multi-domain Text Recognition Deep Neural Network
Parameterization with Residual Adapters
- Title(参考訳): 残差アダプタを用いた高効率マルチドメインテキスト認識深層ニューラルネットワークパラメータ化
- Authors: Jiayou Chao and Wei Zhu
- Abstract要約: 本研究では,光学的文字認識(OCR)に適応する新しいニューラルネットワークモデルを提案する。
このモデルは、新しいドメインへの迅速な適応を実現し、計算リソースの需要を減らすためにコンパクトなサイズを維持し、高い精度を確保し、学習経験から知識を保持し、完全に再訓練することなくドメイン固有のパフォーマンス改善を可能にするように設計されている。
- 参考スコア(独自算出の注目度): 4.454976752204893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in deep neural networks have markedly enhanced the
performance of computer vision tasks, yet the specialized nature of these
networks often necessitates extensive data and high computational power.
Addressing these requirements, this study presents a novel neural network model
adept at optical character recognition (OCR) across diverse domains, leveraging
the strengths of multi-task learning to improve efficiency and generalization.
The model is designed to achieve rapid adaptation to new domains, maintain a
compact size conducive to reduced computational resource demand, ensure high
accuracy, retain knowledge from previous learning experiences, and allow for
domain-specific performance improvements without the need to retrain entirely.
Rigorous evaluation on open datasets has validated the model's ability to
significantly lower the number of trainable parameters without sacrificing
performance, indicating its potential as a scalable and adaptable solution in
the field of computer vision, particularly for applications in optical text
recognition.
- Abstract(参考訳): ディープニューラルネットワークの最近の進歩はコンピュータビジョンタスクの性能を著しく向上させたが、これらのネットワークの特殊性は、しばしば広範なデータと高い計算能力を必要とする。
これらの要件に対処し、多タスク学習の強みを活用して効率と一般化を向上させるために、様々な領域にわたる光学的文字認識(OCR)に適応する新しいニューラルネットワークモデルを提案する。
このモデルは、新しいドメインへの迅速な適応を実現し、計算リソースの需要を減らすためにコンパクトなサイズを維持し、高い精度を確保し、学習経験から知識を保持し、完全に再訓練することなくドメイン固有のパフォーマンス改善を可能にするように設計されている。
オープンデータセットに対する厳密な評価は、パフォーマンスを犠牲にすることなくトレーニング可能なパラメータの数を著しく削減するモデルの能力を検証しており、特に光テキスト認識への応用において、コンピュータビジョンの分野でスケーラブルで適応可能なソリューションとしての可能性を示している。
関連論文リスト
- RepAct: The Re-parameterizable Adaptive Activation Function [31.238011686165596]
RepActは、エッジデバイスの計算制限内で軽量ニューラルネットワークを最適化するための適応アクティベーション関数である。
画像分類や物体検出などのタスクで評価すると、RepActは従来のアクティベーション機能を上回った。
論文 参考訳(メタデータ) (2024-06-28T08:25:45Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model
Perspective [67.25782152459851]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Power-Enhanced Residual Network for Function Approximation and Physics-Informed Inverse Problems [0.0]
本稿では、パワーエンハンシング残差ネットワークと呼ばれる新しいニューラルネットワーク構造を提案する。
2Dおよび3D設定におけるスムーズかつ非スムーズな関数近似のネットワーク機能を改善する。
その結果、特に非滑らか関数に対して、提案したパワーエンハンシング残差ネットワークの例外的精度を強調した。
論文 参考訳(メタデータ) (2023-10-24T10:01:15Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - Deepening Neural Networks Implicitly and Locally via Recurrent Attention
Strategy [6.39424542887036]
リカレントアテンション戦略は、局所パラメータ共有により、軽量アテンションモジュールによるニューラルネットワークの深さを暗黙的に増加させる。
広く使用されている3つのベンチマークデータセットの実験は、RASがパラメータサイズと計算をわずかに増やすことで、ニューラルネットワークのパフォーマンスを向上させることを実証している。
論文 参考訳(メタデータ) (2022-10-27T13:09:02Z) - A Proper Orthogonal Decomposition approach for parameters reduction of
Single Shot Detector networks [0.0]
本稿では,古典的モデルオーダー削減手法であるProper Orthogonal Decompositionに基づく次元削減フレームワークを提案する。
我々は、PASCAL VOCデータセットを用いてSSD300アーキテクチャにそのようなフレームワークを適用し、ネットワーク次元の削減と、転送学習コンテキストにおけるネットワークの微調整における顕著な高速化を実証した。
論文 参考訳(メタデータ) (2022-07-27T14:43:14Z) - Contextual HyperNetworks for Novel Feature Adaptation [43.49619456740745]
Contextual HyperNetwork(CHN)は、ベースモデルを新機能に拡張するためのパラメータを生成する。
予測時、CHNはニューラルネットワークを通る単一のフォワードパスのみを必要とし、大幅なスピードアップをもたらす。
本システムでは,既存のインプテーションやメタラーニングベースラインよりも,新しい特徴のマイズショット学習性能が向上することを示す。
論文 参考訳(メタデータ) (2021-04-12T23:19:49Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。