論文の概要: A Lightweight Multi-Module Fusion Approach for Korean Character Recognition
- arxiv url: http://arxiv.org/abs/2504.05770v1
- Date: Tue, 08 Apr 2025 07:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 23:33:18.939629
- Title: A Lightweight Multi-Module Fusion Approach for Korean Character Recognition
- Title(参考訳): 韓国文字認識のための軽量多モジュール融合手法
- Authors: Inho Jake Park, Jaehoon Jay Jeong, Ho-Sang Jo,
- Abstract要約: SDA-Netは、堅牢な単一文字認識のための軽量で効率的なアーキテクチャである。
挑戦的なOCRベンチマークで最先端の精度を実現し、推論が大幅に高速になる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Optical Character Recognition (OCR) is essential in applications such as document processing, license plate recognition, and intelligent surveillance. However, existing OCR models often underperform in real-world scenarios due to irregular text layouts, poor image quality, character variability, and high computational costs. This paper introduces SDA-Net (Stroke-Sensitive Attention and Dynamic Context Encoding Network), a lightweight and efficient architecture designed for robust single-character recognition. SDA-Net incorporates: (1) a Dual Attention Mechanism to enhance stroke-level and spatial feature extraction; (2) a Dynamic Context Encoding module that adaptively refines semantic information using a learnable gating mechanism; (3) a U-Net-inspired Feature Fusion Strategy for combining low-level and high-level features; and (4) a highly optimized lightweight backbone that reduces memory and computational demands. Experimental results show that SDA-Net achieves state-of-the-art accuracy on challenging OCR benchmarks, with significantly faster inference, making it well-suited for deployment in real-time and edge-based OCR systems.
- Abstract(参考訳): 光文字認識(OCR)は、文書処理、ライセンスプレート認識、インテリジェント監視などの応用において不可欠である。
しかし、既存のOCRモデルは、不規則なテキストレイアウト、画質の低下、文字のばらつき、高い計算コストのために、現実のシナリオでは性能が劣ることが多い。
本稿ではSDA-Net(Stroke-Sensitive Attention and Dynamic Context Encoding Network)を紹介する。
SDA-Netは、(1)ストロークレベルと空間的特徴抽出を強化するデュアルアテンション機構、(2)学習可能なゲーティング機構を用いて意味情報を適応的に洗練する動的コンテキストエンコーディングモジュール、(3)低レベルと高レベルの特徴を組み合わせるためのU-Netにインスパイアされた特徴融合戦略、(4)メモリと計算要求を減らす高度に最適化されたバックボーンを含む。
実験結果から,SDA-Net は OCR ベンチマークの精度を極めて高速に向上し,リアルタイムおよびエッジベースの OCR システムへの展開に適していることが示された。
関連論文リスト
- QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Scaling Test-Time Inference with Policy-Optimized, Dynamic Retrieval-Augmented Generation via KV Caching and Decoding [0.0]
本稿では,動的検索戦略と強化微調整により,RAG(Retrieval-Augmented Generation)システムを強化する枠組みを提案する。
我々のフレームワークは2つの補完手法を統合している: Policy-d Retrieval Augmented Generation (PORAG)とAdaptive Token-Layer Attention Scoring (ATLAS)。
我々のフレームワークは幻覚を減らし、ドメイン固有の推論を強化し、従来のRAGシステムよりも優れた効率とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2025-04-02T01:16:10Z) - Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments [3.5936169218390703]
本稿では、動的ビデオ環境における光学的文字認識(OCR)タスクの視覚言語モデル(VLM)を評価するためのオープンソースのベンチマークを提案する。
コードエディタ,ニュースブロードキャスト,YouTubeビデオ,広告など,さまざまな領域にまたがる1,477の注釈付きフレームを含むキュレートデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:20:19Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Real-Time Hand Gesture Recognition: Integrating Skeleton-Based Data Fusion and Multi-Stream CNN [0.0]
ハンドジェスチャ認識(HGR)は、様々な現実世界のコンテキストにおいて、直感的な人間とコンピュータのインタラクションを可能にする。
既存のフレームワークは、実用的なHGRアプリケーションに必要なリアルタイム要件を満たすのに苦労することが多い。
本研究では,動的ハンドジェスチャの静的イメージタスクへの認識を簡略化する,動的HGRのための頑健な骨格ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T09:30:59Z) - DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - RLEEGNet: Integrating Brain-Computer Interfaces with Adaptive AI for
Intuitive Responsiveness and High-Accuracy Motor Imagery Classification [0.0]
本稿では,Deep Q-Networks (DQN) を用いた強化学習を分類タスクに活用するフレームワークを提案する。
本稿では,OVR(One-Versus-The-Rest)方式で,マルチクラス運動画像(MI)分類のための前処理手法を提案する。
DQNと1D-CNN-LSTMアーキテクチャの統合は意思決定プロセスをリアルタイムで最適化する。
論文 参考訳(メタデータ) (2024-02-09T02:03:13Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。
BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。
複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文 参考訳(メタデータ) (2021-02-11T12:00:24Z) - Deep Adaptive Inference Networks for Single Image Super-Resolution [72.7304455761067]
シングルイメージ超解像(SISR)は、ディープ畳み込みニューラルネットワーク(CNN)の展開により、近年大きく進歩している。
本稿では,深部SISR(AdaDSR)の適応型推論ネットワークを活用することで,この問題に対処する。
我々のAdaDSRは、SISRモデルをバックボーンとし、画像の特徴とリソース制約を入力として取り、ローカルネットワーク深さのマップを予測する軽量アダプタモジュールを備える。
論文 参考訳(メタデータ) (2020-04-08T10:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。