論文の概要: Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting
- arxiv url: http://arxiv.org/abs/2207.06694v2
- Date: Fri, 15 Jul 2022 01:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 11:19:17.392382
- Title: Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting
- Title(参考訳): コスト効率の良いエンドツーエンドテキストスポッティングのための動的低分解能蒸留
- Authors: Ying Chen, Liang Qiao, Zhanzhan Cheng, Shiliang Pu, Yi Niu and Xi Li
- Abstract要約: コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。
それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。
提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
- 参考スコア(独自算出の注目度): 49.33891486324731
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: End-to-end text spotting has attached great attention recently due to its
benefits on global optimization and high maintainability for real applications.
However, the input scale has always been a tough trade-off since recognizing a
small text instance usually requires enlarging the whole image, which brings
high computational costs. In this paper, to address this problem, we propose a
novel cost-efficient Dynamic Low-resolution Distillation (DLD) text spotting
framework, which aims to infer images in different small but recognizable
resolutions and achieve a better balance between accuracy and efficiency.
Concretely, we adopt a resolution selector to dynamically decide the input
resolutions for different images, which is constraint by both inference
accuracy and computational cost. Another sequential knowledge distillation
strategy is conducted on the text recognition branch, making the low-res input
obtains comparable performance to a high-res image. The proposed method can be
optimized end-to-end and adopted in any current text spotting framework to
improve the practicability. Extensive experiments on several text spotting
benchmarks show that the proposed method vastly improves the usability of
low-res models. The code is available at
https://github.com/hikopensource/DAVAR-Lab-OCR/.
- Abstract(参考訳): エンド・ツー・エンドのテキストスポッティングは、グローバルな最適化と実際のアプリケーションに対する高い保守性に利点があるため、最近大きな注目を集めている。
しかし、小さなテキストインスタンスを認識するには画像全体を拡張する必要があるため、計算コストが高いため、入力スケールは常に厳しいトレードオフとなっている。
本稿では,この問題を解決するために,小型ながら認識可能な解像度の異なる画像を推定し,精度と効率のバランスを向上させることを目的とした,コスト効率の高いdld(dynamic low- resolution distillation)テキストスポッティングフレームワークを提案する。
具体的には、推論精度と計算コストの両方で制約される異なる画像の入力解像度を動的に決定する分解能セレクタを採用する。
別の逐次知識蒸留戦略をテキスト認識枝で行い、低精細入力が高精細画像に匹敵する性能を得る。
提案手法はエンド・ツー・エンドを最適化でき、実用性を改善するために現在のテキストスポッティングフレームワークで採用できる。
いくつかのテキストスポッティングベンチマークにおいて、提案手法は低解像度モデルのユーザビリティを大幅に改善することを示す。
コードはhttps://github.com/hikopensource/DAVAR-Lab-OCR/で公開されている。
関連論文リスト
- DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - Text-guided Explorable Image Super-resolution [14.83045604603449]
ゼロショットテキスト誘導超解像に対する2つのアプローチを提案する。
提案手法はテキストプロンプトによって提供される意味的意味に合致する多様な解をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-02T08:10:54Z) - One-stage Low-resolution Text Recognition with High-resolution Knowledge
Transfer [53.02254290682613]
現在の低解像度テキスト認識のソリューションは、通常2段階のパイプラインに依存している。
本稿では,多段階の知識伝達を実現するための効率的かつ効果的な知識蒸留フレームワークを提案する。
実験の結果、提案されたワンステージパイプラインは、超高解像度ベースの2ステージフレームワークよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-05T02:33:45Z) - ESTISR: Adapting Efficient Scene Text Image Super-resolution for
Real-Scenes [25.04435367653037]
シーンテキスト画像超解像(STISR)は、シーンテキストの正確な認識において顕著な改善をもたらした。
本稿では,資源限定配置プラットフォームのための高効率Scene Text Image Super- resolution (ESTISR) ネットワークを提案する。
ESTISRは、実際の実行時間とピークメモリ消費の点で、現在のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-06-04T19:14:44Z) - Rethinking Resolution in the Context of Efficient Video Recognition [49.957690643214576]
クロスレゾリューションKD(ResKD)は、低解像度フレームでの認識精度を高めるための単純だが効果的な方法である。
我々は,最先端アーキテクチャ,すなわち3D-CNNとビデオトランスフォーマーに対して,その効果を広く示す。
論文 参考訳(メタデータ) (2022-09-26T15:50:44Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - High Quality Segmentation for Ultra High-resolution Images [72.97958314291648]
超高分解能セグメンテーション精錬作業のための連続精細モデルを提案する。
提案手法は画像分割精細化において高速かつ効果的である。
論文 参考訳(メタデータ) (2021-11-29T11:53:06Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。