Fugu-MT 論文翻訳(概要): A Lightweight Multi-Module Fusion Approach for Korean Character Recognition

論文の概要: A Lightweight Multi-Module Fusion Approach for Korean Character Recognition

arxiv url: http://arxiv.org/abs/2504.05770v1
Date: Tue, 08 Apr 2025 07:50:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-16 23:33:18.939629
Title: A Lightweight Multi-Module Fusion Approach for Korean Character Recognition
Title（参考訳）: 韓国文字認識のための軽量多モジュール融合手法
Authors: Inho Jake Park, Jaehoon Jay Jeong, Ho-Sang Jo,
Abstract要約: SDA-Netは、堅牢な単一文字認識のための軽量で効率的なアーキテクチャである。挑戦的なOCRベンチマークで最先端の精度を実現し、推論が大幅に高速になる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Optical Character Recognition (OCR) is essential in applications such as document processing, license plate recognition, and intelligent surveillance. However, existing OCR models often underperform in real-world scenarios due to irregular text layouts, poor image quality, character variability, and high computational costs. This paper introduces SDA-Net (Stroke-Sensitive Attention and Dynamic Context Encoding Network), a lightweight and efficient architecture designed for robust single-character recognition. SDA-Net incorporates: (1) a Dual Attention Mechanism to enhance stroke-level and spatial feature extraction; (2) a Dynamic Context Encoding module that adaptively refines semantic information using a learnable gating mechanism; (3) a U-Net-inspired Feature Fusion Strategy for combining low-level and high-level features; and (4) a highly optimized lightweight backbone that reduces memory and computational demands. Experimental results show that SDA-Net achieves state-of-the-art accuracy on challenging OCR benchmarks, with significantly faster inference, making it well-suited for deployment in real-time and edge-based OCR systems.
Abstract（参考訳）: 光文字認識(OCR)は、文書処理、ライセンスプレート認識、インテリジェント監視などの応用において不可欠である。しかし、既存のOCRモデルは、不規則なテキストレイアウト、画質の低下、文字のばらつき、高い計算コストのために、現実のシナリオでは性能が劣ることが多い。本稿ではSDA-Net(Stroke-Sensitive Attention and Dynamic Context Encoding Network)を紹介する。 SDA-Netは、(1)ストロークレベルと空間的特徴抽出を強化するデュアルアテンション機構、(2)学習可能なゲーティング機構を用いて意味情報を適応的に洗練する動的コンテキストエンコーディングモジュール、(3)低レベルと高レベルの特徴を組み合わせるためのU-Netにインスパイアされた特徴融合戦略、(4)メモリと計算要求を減らす高度に最適化されたバックボーンを含む。実験結果から,SDA-Net は OCR ベンチマークの精度を極めて高速に向上し,リアルタイムおよびエッジベースの OCR システムへの展開に適していることが示された。

関連論文リスト

When Text-as-Vision Meets Semantic IDs in Generative Recommendation: An Empirical Study [48.67151986743594]
テキストを視覚信号として扱うことでセマンティックID学習の表現設計を再考する。項目記述を画像に描画することで得られるOCRに基づくテキスト表現の体系的な実証的研究を行う。 OCR-text は, セマンティックID 学習における標準テキスト埋め込みと一意に一致しているか, 上回っていることがわかった。
論文参考訳（メタデータ） (2026-01-21T06:18:57Z)
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。 2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文参考訳（メタデータ） (2025-11-13T15:12:17Z)
Automated Invoice Data Extraction: Using LLM and OCR [0.0]
この研究は、OCR、ディープラーニング、LLM(Large Language Models)、グラフ分析を組み合わせた総合人工知能(AI)プラットフォームを導入し、前例のない抽出品質と一貫性を実現する。
論文参考訳（メタデータ） (2025-11-01T19:05:09Z)
SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning [59.013863248600046]
本稿では,空間的に再焦点を絞ったテキストコンディショニングを推論時に洗練する超解像フレームワークを提案する。第二に,非接地画素に対するテキストの影響を選択的に回避し,幻覚を防ぐ空間的自由誘導機構を導入する。
論文参考訳（メタデータ） (2025-10-26T05:03:55Z)
Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。 KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文参考訳（メタデータ） (2025-10-23T07:12:26Z)
Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [53.16213723669751]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-04T07:47:18Z)
CS-VLM: Compressed Sensing Attention for Efficient Vision-Language Representation Learning [0.0]
本稿では,圧縮センシングのレンズによる注意計算を再現する新しいアーキテクチャであるCompressed Sensing Attention Transformer (CSAT)を紹介する。 CSATは、特に時間的冗長度が高いビデオや、モーダルな接地度が低い言語において、視覚的およびテキスト的表現が本質的に圧縮可能であることを生かしている。
論文参考訳（メタデータ） (2025-06-30T02:11:20Z)
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
Scaling Test-Time Inference with Policy-Optimized, Dynamic Retrieval-Augmented Generation via KV Caching and Decoding [0.0]
本稿では,動的検索戦略と強化微調整により,RAG(Retrieval-Augmented Generation)システムを強化する枠組みを提案する。我々のフレームワークは2つの補完手法を統合している: Policy-d Retrieval Augmented Generation (PORAG)とAdaptive Token-Layer Attention Scoring (ATLAS)。我々のフレームワークは幻覚を減らし、ドメイン固有の推論を強化し、従来のRAGシステムよりも優れた効率とスケーラビリティを実現する。
論文参考訳（メタデータ） (2025-04-02T01:16:10Z)
Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments [3.5936169218390703]
本稿では、動的ビデオ環境における光学的文字認識(OCR)タスクの視覚言語モデル(VLM)を評価するためのオープンソースのベンチマークを提案する。コードエディタ,ニュースブロードキャスト,YouTubeビデオ,広告など,さまざまな領域にまたがる1,477の注釈付きフレームを含むキュレートデータセットを提案する。
論文参考訳（メタデータ） (2025-02-10T13:20:19Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
Real-Time Hand Gesture Recognition: Integrating Skeleton-Based Data Fusion and Multi-Stream CNN [0.0]
ハンドジェスチャ認識(HGR)は、様々な現実世界のコンテキストにおいて、直感的な人間とコンピュータのインタラクションを可能にする。既存のフレームワークは、実用的なHGRアプリケーションに必要なリアルタイム要件を満たすのに苦労することが多い。本研究では,動的ハンドジェスチャの静的イメージタスクへの認識を簡略化する,動的HGRのための頑健な骨格ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-21T09:30:59Z)
DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文参考訳（メタデータ） (2024-04-19T09:28:16Z)
RLEEGNet: Integrating Brain-Computer Interfaces with Adaptive AI for Intuitive Responsiveness and High-Accuracy Motor Imagery Classification [0.0]
本稿では,Deep Q-Networks (DQN) を用いた強化学習を分類タスクに活用するフレームワークを提案する。本稿では,OVR(One-Versus-The-Rest)方式で,マルチクラス運動画像(MI)分類のための前処理手法を提案する。 DQNと1D-CNN-LSTMアーキテクチャの統合は意思決定プロセスをリアルタイムで最適化する。
論文参考訳（メタデータ） (2024-02-09T02:03:13Z)
Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文参考訳（メタデータ） (2023-05-11T02:02:53Z)
Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文参考訳（メタデータ） (2021-03-15T12:54:26Z)
Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。 BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文参考訳（メタデータ） (2021-02-11T12:00:24Z)
Deep Adaptive Inference Networks for Single Image Super-Resolution [72.7304455761067]
シングルイメージ超解像(SISR)は、ディープ畳み込みニューラルネットワーク(CNN)の展開により、近年大きく進歩している。本稿では,深部SISR(AdaDSR)の適応型推論ネットワークを活用することで,この問題に対処する。我々のAdaDSRは、SISRモデルをバックボーンとし、画像の特徴とリソース制約を入力として取り、ローカルネットワーク深さのマップを予測する軽量アダプタモジュールを備える。
論文参考訳（メタデータ） (2020-04-08T10:08:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。