論文の概要: Bridging the Gap: Fusing CNNs and Transformers to Decode the Elegance of Handwritten Arabic Script
- arxiv url: http://arxiv.org/abs/2503.15023v1
- Date: Wed, 19 Mar 2025 09:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:30.586365
- Title: Bridging the Gap: Fusing CNNs and Transformers to Decode the Elegance of Handwritten Arabic Script
- Title(参考訳): ギャップを埋める: CNNとトランスフォーマーを使って手書きアラビア語スクリプトのエレガンスをデコードする
- Authors: Chaouki Boufenar, Mehdi Ayoub Rabiai, Boualem Nadjib Zahaf, Khelil Rafik Ouaras,
- Abstract要約: 手書きのアラビア文字認識は、スクリプトの動的文字形式と文脈変化のために難しい作業である。
本稿では、畳み込みニューラルネットワーク(CNN)とTransformerベースのアーキテクチャを組み合わせて、これらの複雑さに対処するハイブリッドアプローチを提案する。
我々のアンサンブルはIFN/ENITデータセットで顕著な性能を示し、文字分類では96.38%、位置分類では97.22%の精度である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Handwritten Arabic script recognition is a challenging task due to the script's dynamic letter forms and contextual variations. This paper proposes a hybrid approach combining convolutional neural networks (CNNs) and Transformer-based architectures to address these complexities. We evaluated custom and fine-tuned models, including EfficientNet-B7 and Vision Transformer (ViT-B16), and introduced an ensemble model that leverages confidence-based fusion to integrate their strengths. Our ensemble achieves remarkable performance on the IFN/ENIT dataset, with 96.38% accuracy for letter classification and 97.22% for positional classification. The results highlight the complementary nature of CNNs and Transformers, demonstrating their combined potential for robust Arabic handwriting recognition. This work advances OCR systems, offering a scalable solution for real-world applications.
- Abstract(参考訳): 手書きのアラビア文字認識は、スクリプトの動的文字形式と文脈変化のために難しい作業である。
本稿では、畳み込みニューラルネットワーク(CNN)とTransformerベースのアーキテクチャを組み合わせて、これらの複雑さに対処するハイブリッドアプローチを提案する。
我々は、EfficientNet-B7 や Vision Transformer (ViT-B16) など、カスタムモデルと微調整モデルを評価し、信頼性に基づく融合を利用して強度を統合するアンサンブルモデルを導入した。
我々のアンサンブルはIFN/ENITデータセットで顕著な性能を示し、文字分類では96.38%、位置分類では97.22%の精度である。
結果はCNNとトランスフォーマーの相補的な性質を強調し、アラビア文字認識の堅牢性を示すものである。
この作業はOCRシステムを進化させ、現実世界のアプリケーションにスケーラブルなソリューションを提供する。
関連論文リスト
- Arabic Handwritten Document OCR Solution with Binarization and Adaptive Scale Fusion Detection [1.1655046053160683]
テキスト行の正確な検出を保証するために,ラインセグメンテーションとAdaptive Scale Fusion技術から始まる完全なOCRパイプラインを提案する。
我々のシステムはアラビア多言語データセットに基づいて訓練され、7文字から10文字の単語サンプルに対して99.20%の文字認識率(CRR)と93.75%の単語認識率(WRR)を達成する。
論文 参考訳(メタデータ) (2024-12-02T15:21:09Z) - Advanced Arabic Alphabet Sign Language Recognition Using Transfer Learning and Transformer Models [0.0]
本稿では、トランスファー学習とトランスフォーマーモデルを組み合わせたディープラーニング手法を用いて、アラビア語 Alphabet Sign Language 認識手法を提案する。
本稿では,ArSL2018 と AASL の2つの公開データセット上で,異なる変種の性能について検討する。
実験の結果、提案手法は、ArSL2018とAASLでそれぞれ99.6%、99.43%の精度で高い精度を得られることが示されている。
論文 参考訳(メタデータ) (2024-10-01T13:39:26Z) - Classification of Non-native Handwritten Characters Using Convolutional Neural Network [0.0]
非ネイティブユーザによる英語文字の分類は、カスタマイズされたCNNモデルを提案することによって行われる。
我々はこのCNNを、手書きの独立した英語文字データセットと呼ばれる新しいデータセットでトレーニングする。
5つの畳み込み層と1つの隠蔽層を持つモデルでは、文字認識精度において最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T21:08:07Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - An Ensemble Method Based on the Combination of Transformers with
Convolutional Neural Networks to Detect Artificially Generated Text [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)を用いたSci-BERT、DeBERTa、XLNetなどのトランスフォーマーモデルによる分類モデルを提案する。
実験により, アンサンブルアーキテクチャは, 分類のための個別変圧器モデルの性能を上回っていることが示された。
論文 参考訳(メタデータ) (2023-10-26T11:17:03Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - A Transformer-based Approach for Arabic Offline Handwritten Text
Recognition [0.0]
オフラインのアラビア文字を認識できるアーキテクチャを2つ導入する。
私たちのアプローチは言語依存をモデル化することができ、注意機構のみに依存するので、より並列化可能で、より複雑ではありません。
アラビアKHATTデータセットの評価は,提案手法が現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-27T17:51:52Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。