論文の概要: Hybrid CNN-ViT Framework for Motion-Blurred Scene Text Restoration
- arxiv url: http://arxiv.org/abs/2511.06087v1
- Date: Sat, 08 Nov 2025 17:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.749015
- Title: Hybrid CNN-ViT Framework for Motion-Blurred Scene Text Restoration
- Title(参考訳): モーションブルシーンのテキスト復元のためのハイブリッドCNN-ViTフレームワーク
- Authors: Umar Rashid, Muhammad Arslan Arshad, Ghulam Ahmad, Muhammad Zeeshan Anjum, Rizwan Khan, Muhammad Akmal,
- Abstract要約: 我々は、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を組み合わせたハイブリッドディープラーニングフレームワークを導入する。
アーキテクチャは構造の詳細を保存するためにCNNベースのエンコーダデコーダを使用し、トランスフォーマーモジュールは自己注意を通じてグローバルな認識を高める。
提案手法は,PSNRでは32.20dB,SSIMでは0.934dB,軽量では2.83万パラメータ,平均推定時間は61msである。
- 参考スコア(独自算出の注目度): 2.0855516369698845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion blur in scene text images severely impairs readability and hinders the reliability of computer vision tasks, including autonomous driving, document digitization, and visual information retrieval. Conventional deblurring approaches are often inadequate in handling spatially varying blur and typically fall short in modeling the long-range dependencies necessary for restoring textual clarity. To overcome these limitations, we introduce a hybrid deep learning framework that combines convolutional neural networks (CNNs) with vision transformers (ViTs), thereby leveraging both local feature extraction and global contextual reasoning. The architecture employs a CNN-based encoder-decoder to preserve structural details, while a transformer module enhances global awareness through self-attention. Training is conducted on a curated dataset derived from TextOCR, where sharp scene-text samples are paired with synthetically blurred versions generated using realistic motion-blur kernels of multiple sizes and orientations. Model optimization is guided by a composite loss that incorporates mean absolute error (MAE), squared error (MSE), perceptual similarity, and structural similarity (SSIM). Quantitative eval- uations show that the proposed method attains 32.20 dB in PSNR and 0.934 in SSIM, while remaining lightweight with 2.83 million parameters and an average inference time of 61 ms. These results highlight the effectiveness and computational efficiency of the CNN-ViT hybrid design, establishing its practicality for real-world motion-blurred scene-text restoration.
- Abstract(参考訳): シーンテキスト画像の動作のぼかしは、可読性を著しく損なうとともに、自律運転、文書のデジタル化、視覚情報検索などのコンピュータビジョンタスクの信頼性を損なう。
従来のデブロアリングアプローチは、空間的に異なる曖昧さを扱うのに不適切であり、典型的にはテキストの明瞭さを回復するのに必要な長距離依存をモデル化するのに不十分である。
これらの制限を克服するために、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を組み合わせたハイブリッドディープラーニングフレームワークを導入し、局所的な特徴抽出とグローバルな文脈推論の両方を活用する。
アーキテクチャは構造の詳細を保存するためにCNNベースのエンコーダデコーダを使用し、トランスフォーマーモジュールは自己注意を通じてグローバルな認識を高める。
トレーニングはTextOCRから派生したキュレートデータセット上で行われ、シャープなシーンテキストサンプルと、複数のサイズと向きのリアルなモーションブルーカーネルを使用して生成された合成的にぼやけたバージョンがペアリングされる。
モデル最適化は、平均絶対誤差(MAE)、二乗誤差(MSE)、知覚的類似性、構造的類似性(SSIM)を含む複合損失によって導かれる。
定量的eval- uationsは,提案手法がPSNRで32.20dB,SSIMで0.934dB,軽さ2.83万パラメータで平均推算時間61msであり,CNN-ViTハイブリッド設計の有効性と計算効率を強調した。
関連論文リスト
- URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Unwarping Screen Content Images via Structure-texture Enhancement Network and Transformation Self-estimation [2.404130767806698]
画面コンテンツ画像(SCI)に対する変換自己推定を用いた構造テクスチャ拡張ネットワーク(STEN)を提案する。
STENはB-スプラインの暗黙的ニューラル表現モジュールと変換誤差推定と自己補正アルゴリズムを統合している。
パブリックなSCIデータセットの実験は、我々のアプローチが最先端の手法を大きく上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-21T13:59:44Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - Physics-Driven Autoregressive State Space Models for Medical Image Reconstruction [5.208643222679356]
本研究では,高忠実かつ効率的な画像再構成のための物理駆動自己回帰状態空間モデル(SSM)であるMambaRollを提案する。
MambaRollは、各カスケードが粗いスケールの表現でより微細な特徴マップを自動回帰予測するアンロールアーキテクチャを採用している。
MambaRoll は最新 CNN 法, Transformer- 法, SSM 法を常に上回っている。
論文 参考訳(メタデータ) (2024-12-12T14:59:56Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。