論文の概要: DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition
- arxiv url: http://arxiv.org/abs/2602.17387v1
- Date: Thu, 19 Feb 2026 14:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.091961
- Title: DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition
- Title(参考訳): DRetHTR:手書き文字認識のための線形時間デコーダ専用ネットワーク
- Authors: Changhun Kim, Martin Mayr, Thomas Gorges, Fei Wu, Mathias Seuret, Andreas Maier, Vincent Christlein,
- Abstract要約: DRetHTRはRetentive Networks(RetNet)上に構築されたデコーダのみのモデルである。
DRetHTRは1.6-1.9倍高速で、メモリ使用量は38-42%減少し、精度は低下しない。
これは、デコーダのみのRetNetにより、デコーダレベルのHTR精度が大幅に向上し、デコード速度とメモリ効率が大幅に向上することを示している。
- 参考スコア(独自算出の注目度): 13.484241759667912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art handwritten text recognition (HTR) systems commonly use Transformers, whose growing key-value (KV) cache makes decoding slow and memory-intensive. We introduce DRetHTR, a decoder-only model built on Retentive Networks (RetNet). Compared to an equally sized decoder-only Transformer baseline, DRetHTR delivers 1.6-1.9x faster inference with 38-42% less memory usage, without loss of accuracy. By replacing softmax attention with softmax-free retention and injecting multi-scale sequential priors, DRetHTR avoids a growing KV cache: decoding is linear in output length in both time and memory. To recover the local-to-global inductive bias of attention, we propose layer-wise gamma scaling, which progressively enlarges the effective retention horizon in deeper layers. This encourages early layers to model short-range dependencies and later layers to capture broader context, mitigating the flexibility gap introduced by removing softmax. Consequently, DRetHTR achieves best reported test character error rates of 2.26% (IAM-A, en), 1.81% (RIMES, fr), and 3.46% (Bentham, en), and is competitive on READ-2016 (de) with 4.21%. This demonstrates that decoder-only RetNet enables Transformer-level HTR accuracy with substantially improved decoding speed and memory efficiency.
- Abstract(参考訳): 最先端の手書き文字認識(HTR)システムでは、キー値(KV)キャッシュの増大によってデコードが遅く、メモリ集約化されるトランスフォーマーが一般的である。
DRetHTRはRetentive Networks(RetNet)上に構築されたデコーダのみのモデルである。
DRetHTRはデコーダのみのトランスフォーマーベースラインに比べて1.6-1.9倍高速で、メモリ使用量は38-42%減少し、精度は低下しない。
ソフトマックスの注意をソフトマックスのない保持に置き換え、マルチスケールのシーケンシャルプリエントを注入することで、DRetHTRはKVキャッシュの増大を避ける:デコードは時間とメモリの両方で出力長が線形である。
本研究では,より深い層における有効保持地平線を段階的に拡大する層ワイドガンマスケーリングを提案する。
これにより、初期のレイヤがショートレンジの依存関係と後続のレイヤをモデル化して、より広いコンテキストをキャプチャし、ソフトマックスを削除することで導入された柔軟性のギャップを軽減することができる。
その結果、DRetHTRは2.26%(IAM-A, en)、1.81%(RIMES, fr)、および3.46%(Bentham, en)と報告され、READ-2016(de)では4.21%で競っている。
これは、デコーダのみのRetNetにより、デコーダレベルのHTR精度が大幅に向上し、デコード速度とメモリ効率が大幅に向上することを示している。
関連論文リスト
- SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization [56.12853087022071]
スケーリングとトレーニングの安定性を向上させるために,新しい画素拡散デコーダアーキテクチャを導入する。
蒸留を用いて, 拡散復号器の性能を効率よく再現する。
これによりSSDDは、敵の損失なしに訓練された単一ステップ再構成に最適化された最初の拡散デコーダとなる。
論文 参考訳(メタデータ) (2025-10-06T15:57:31Z) - Wide-In, Narrow-Out: Revokable Decoding for Efficient and Effective DLLMs [57.69190972274813]
Diffusion Large Language Models (DLLM) は、自動回帰モデルの魅力的な代替品として登場した。
既存のDLLMは、高速な並列復号化によって性能が著しく低下する、厳しい品質と速度のトレードオフに悩まされている。
本稿では,DLLMの復号化を可能にするトレーニング不要復号アルゴリズムであるWide-In, Narrow-Out (WINO)を紹介する。
論文 参考訳(メタデータ) (2025-07-24T16:51:33Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation [13.817958247146175]
本稿では,ASRエンコーダの低ランク圧縮方式であるLiteASRを導入する。
評価の結果,Whisperの大容量v3エンコーダサイズを50%以上圧縮し,Whisper媒体サイズと転写精度を比較検討した。
論文 参考訳(メタデータ) (2025-02-27T22:52:21Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [19.900719882624028]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
このようなモデルのスケーリングには効率性が優先されるため、最先端のMask2Formerでは、変換器エンコーダのみに計算の50%を使用しています。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。