論文の概要: PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2109.04145v1
- Date: Thu, 9 Sep 2021 10:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:15:13.988929
- Title: PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text
Recognition
- Title(参考訳): PIMNet:シーンテキスト認識のための並列・反復・マイマイキングネットワーク
- Authors: Zhi Qiao, Yu Zhou, Jin Wei, Wei Wang, Yuan Zhang, Ning Jiang, Hongbin
Wang, Weiping Wang
- Abstract要約: そこで我々はPIMNet(Parallel, Iterative and Mimicking Network)を提案する。
PIMNetでは、テキストを高速に予測するための並列アテンション機構と、予測をより正確にするための反復生成機構を採用している。
- 参考スコア(独自算出の注目度): 16.976881696357275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, scene text recognition has attracted more and more attention due to
its various applications. Most state-of-the-art methods adopt an
encoder-decoder framework with attention mechanism, which generates text
autoregressively from left to right. Despite the convincing performance, the
speed is limited because of the one-by-one decoding strategy. As opposed to
autoregressive models, non-autoregressive models predict the results in
parallel with a much shorter inference time, but the accuracy falls behind the
autoregressive counterpart considerably. In this paper, we propose a Parallel,
Iterative and Mimicking Network (PIMNet) to balance accuracy and efficiency.
Specifically, PIMNet adopts a parallel attention mechanism to predict the text
faster and an iterative generation mechanism to make the predictions more
accurate. In each iteration, the context information is fully explored. To
improve learning of the hidden layer, we exploit the mimicking learning in the
training phase, where an additional autoregressive decoder is adopted and the
parallel decoder mimics the autoregressive decoder with fitting outputs of the
hidden layer. With the shared backbone between the two decoders, the proposed
PIMNet can be trained end-to-end without pre-training. During inference, the
branch of the autoregressive decoder is removed for a faster speed. Extensive
experiments on public benchmarks demonstrate the effectiveness and efficiency
of PIMNet. Our code will be available at https://github.com/Pay20Y/PIMNet.
- Abstract(参考訳): 近年,様々な用途でシーンテキスト認識が注目されている。
ほとんどの最先端手法では、注意機構を備えたエンコーダ・デコーダフレームワークを採用しており、テキストを左右に自己回帰的に生成する。
説得力のある性能にもかかわらず、1対1のデコード戦略のため速度は限られている。
自己回帰モデルとは対照的に、非自己回帰モデルは予測結果をはるかに短い推論時間で並列に予測するが、精度は自己回帰モデルよりもかなり遅れる。
本稿では、精度と効率のバランスをとるために、並列的かつ反復的かつ模倣的なネットワーク(pimnet)を提案する。
具体的には、テキストを高速に予測するための並列注意機構と、予測をより正確にするための反復生成機構を採用する。
各イテレーションで、コンテキスト情報は完全に探究される。
隠蔽層の学習を改善するために,追加の自己回帰復号器が採用され,並列復号器が隠蔽層の出力に適合した自己回帰復号器を模倣する訓練段階の模倣学習を利用する。
2つのデコーダ間の共有バックボーンにより、提案されたPIMNetは、事前トレーニングなしでエンドツーエンドでトレーニングすることができる。
推論中、オートレグレッシブデコーダの分岐はより高速に削除される。
公開ベンチマークに関する大規模な実験は、PIMNetの有効性と効率を実証している。
私たちのコードはhttps://github.com/pay20y/pimnetで利用可能です。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - T4P: Test-Time Training of Trajectory Prediction via Masked Autoencoder and Actor-specific Token Memory [39.021321011792786]
軌道予測は、複数のアクター間の相互作用を考慮することを必要とする難しい問題である。
データ駆動型アプローチは、この複雑な問題に対処するために使われてきたが、テスト期間中に分散シフトの下では信頼性の低い予測に悩まされている。
本研究では,観測データから回帰損失を用いたオンライン学習手法を提案する。
提案手法は,予測精度と計算効率の両方の観点から,既存の最先端オンライン学習手法の性能を超越した手法である。
論文 参考訳(メタデータ) (2024-03-15T06:47:14Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition [5.525052547053668]
多様な応用により、シーンテキスト認識がますます注目を集めている。
最先端のほとんどのメソッドは、アテンション機構を備えたエンコーダ・デコーダフレームワークを採用しており、左から右へ自動回帰的にテキストを生成する。
本稿では,並列かつ反復的なデコーダを用いて,簡単なデコード戦略を採用する方法を提案する。
論文 参考訳(メタデータ) (2023-12-19T08:03:19Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Deep Encoder, Shallow Decoder: Reevaluating Non-autoregressive Machine
Translation [78.51887060865273]
単層自己回帰デコーダは、推論速度に匹敵する強い非自己回帰モデルよりも大幅に優れていることを示す。
本研究は,高速かつ高精度な機械翻訳研究のための新しいプロトコルを構築した。
論文 参考訳(メタデータ) (2020-06-18T09:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。