Fugu-MT 論文翻訳(概要): Confidence-Guided Diffusion Augmentation for Enhanced Bangla Compound Character Recognition

論文の概要: Confidence-Guided Diffusion Augmentation for Enhanced Bangla Compound Character Recognition

arxiv url: http://arxiv.org/abs/2605.10916v2
Date: Tue, 12 May 2026 16:00:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 18:21:07.143942
Title: Confidence-Guided Diffusion Augmentation for Enhanced Bangla Compound Character Recognition
Title（参考訳）: 信頼性誘導拡散増強によるバングラ化合物文字認識の強化
Authors: Md. Sultan Al Rayhan,
Abstract要約: 既存のBangla手書き文字認識システムは、様々な書体にまたがる一般化に苦慮している。低分解能バングラ複合文字認識のための信頼誘導拡散拡張フレームワークを提案する。我々の最高の性能モデルは89.2%の分類精度を達成し、AIBanglaベンチマークを上回りました。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recognition of handwritten Bangla compound characters remains a challenging problem due to complex character structures, large intra-class variation, and limited availability of high-quality annotated data. Existing Bangla handwritten character recognition systems often struggle to generalize across diverse writing styles, particularly for compound characters containing intricate ligatures and diacritical variations. In this work, we propose a confidence-guided diffusion augmentation framework for low-resolution Bangla compound character recognition. Our framework combines class-conditional diffusion modeling with classifier guidance to synthesize high-quality handwritten compound character samples. To further improve generation quality, we introduce Squeeze-and-Excitation enhanced residual blocks within the diffusion model's U-Net backbone. We additionally propose a confidence-based filtering mechanism where pre-trained classifiers act as quality gates to retain only highly class-consistent synthetic samples. The filtered synthetic images are fused with the original training data and used to retrain multiple classification architectures. Experiments conducted on the AIBangla compound character dataset demonstrate consistent performance improvements across ResNet50, DenseNet121, VGG16, and Vision Transformer architectures. Our best-performing model achieves 89.2\% classification accuracy, surpassing the previously published AIBangla benchmark by a substantial margin. The results demonstrate that quality-aware diffusion augmentation can effectively enhance handwritten character recognition performance in low-resource script domains.
Abstract（参考訳）: 手書きバングラ複合文字の認識は、複雑な文字構造、大きなクラス内変動、高品質な注釈付きデータの可用性の制限など、依然として困難な問題である。既存のバングラ手書き文字認識システムは、様々な書体スタイル、特に複雑なリグチュアとダイアクリティカルなバリエーションを含む複合文字の一般化に苦慮することが多い。本研究では,低分解能バングラ複合文字認識のための信頼誘導拡散増強フレームワークを提案する。本フレームワークは,クラス条件拡散モデルと分類器ガイダンスを組み合わせることで,高品質な手書き複合文字サンプルを合成する。生成品質をさらに向上するため,拡散モデルのU-Netバックボーン内にSqueeze-and-Excitation拡張残留ブロックを導入する。さらに,事前学習した分類器が品質ゲートとして機能し,高いクラス一貫性を持つ合成サンプルのみを保持する信頼度に基づくフィルタリング機構を提案する。フィルタされた合成画像は、元のトレーニングデータと融合し、複数の分類アーキテクチャを再訓練するために使用される。 AIBanglaの複合文字データセットで実施された実験では、ResNet50、DenseNet121、VGG16、Vision Transformerアーキテクチャ間の一貫したパフォーマンス改善が示されている。我々の最高の性能モデルは89.2\%の分類精度を達成し、以前公表したAIBanglaベンチマークをかなり上回っている。その結果、低リソーススクリプト領域における手書き文字認識性能を効果的に向上できることを示す。

関連論文リスト

Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。 CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文参考訳（メタデータ） (2025-11-25T18:57:28Z)
FW-GAN: Frequency-Driven Handwriting Synthesis with Wave-Modulated MLP Generator [4.94997283141601]
FW-GANは、1つの例から現実的な書き手一貫性のあるテキストを生成するワンショット手書き合成フレームワークである。我々のジェネレータは、位相対応のWave-MLPを統合し、微妙なスタイリスティックな手がかりを保ちながら、空間的関係をよりよく捉えている。ベトナム語と英語の筆跡データセットの実験は、FW-GANが高品質でスタイルに一貫性のある筆跡を生成することを示した。
論文参考訳（メタデータ） (2025-08-28T17:44:52Z)
Learning to Align: Addressing Character Frequency Distribution Shifts in Handwritten Text Recognition [7.913119666154837]
手書きテキスト認識は、視覚入力を機械可読テキストに変換することを目的としている。文字集合は時間とともに変化し、文字の頻度分布は歴史的時代や地域によって変化する。本稿では,予測されたテキストの文字頻度分布とターゲット分布とのワッサーシュタイン距離を組み込んだ新たな損失関数を提案する。
論文参考訳（メタデータ） (2025-06-11T15:20:30Z)
Your Image Generator Is Your New Private Dataset [4.09225917049674]
生成拡散モデルは、トレーニングデータを合成的に生成する強力なツールとして登場した。本稿では,これらの課題に対処するために,テクスチャ・コンディションド・ナレッジ・リサイクリング・パイプラインを提案する。パイプラインは10の多様な画像分類ベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-04-06T18:46:08Z)
Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文参考訳（メタデータ） (2024-11-23T15:24:47Z)
Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文参考訳（メタデータ） (2024-08-08T17:20:08Z)
ENTED: Enhanced Neural Texture Extraction and Distribution for Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文参考訳（メタデータ） (2024-01-13T04:54:59Z)
Diversified in-domain synthesis with efficient fine-tuning for few-shot classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文参考訳（メタデータ） (2023-12-05T17:18:09Z)
Self-Adversarial Learning with Comparative Discrimination for Text Generation [111.18614166615968]
本稿では,テキスト生成におけるGANの性能向上のための,新たな自己逆学習(SAL)パラダイムを提案する。トレーニング中、SALは、現在生成された文が以前生成されたサンプルより優れていると判断されたときにジェネレータに報酬を与える。テキスト生成ベンチマークデータセットの実験により,提案手法は品質と多様性の両方を大幅に改善することが示された。
論文参考訳（メタデータ） (2020-01-31T07:50:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。