論文の概要: Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification
- arxiv url: http://arxiv.org/abs/2603.02591v1
- Date: Tue, 03 Mar 2026 04:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.636894
- Title: Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification
- Title(参考訳): 一般化の最大化:ベンガル文字分類のための軽量ビジョン変換器における異なる拡張手法の効果
- Authors: Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha,
- Abstract要約: ディープラーニングモデルは、過度な適合を避けるために、大規模なデータセットに大きく依存する。
大規模なデータセットは多くのドメイン、特にBengaliのようなリソース制限言語では利用できない。
データ拡張(Data augmentation)とは、データのサイズと多様性を高めるための一連のテクニックである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models have proven to be highly effective in computer vision, with deep convolutional neural networks achieving impressive results across various computer vision tasks. However, these models rely heavily on large datasets to avoid overfitting. When a model learns features with either low or high variance, it can lead to underfitting or overfitting on the training data. Unfortunately, large-scale datasets may not be available in many domains, particularly for resource-limited languages such as Bengali. In this experiment, a series of tests were conducted in the field of image data augmentation as an approach to addressing the limited data problem for Bengali handwritten characters. The study also provides an in-depth analysis of the performance of different augmentation techniques. Data augmentation refers to a set of techniques applied to data to increase its size and diversity, making it more suitable for training deep learning models. The image augmentation techniques evaluated in this study include CLAHE, Random Rotation, Random Affine, Color Jitter, and their combinations. The study further explores the use of augmentation methods with a lightweight model such as EfficientViT. Among the different augmentation strategies, the combination of Random Affine and Color Jitter produced the best accuracy on the Ekush [1] and AIBangla [2] datasets, achieving accuracies of 97.48% and 97.57%, respectively. This combination outperformed all other individual and combined augmentation techniques. Overall, this analysis presents a thorough examination of the impact of image data augmentation in resource-scarce languages, particularly in the context of Bengali handwritten character recognition using lightweight models.
- Abstract(参考訳): 深層学習モデルはコンピュータビジョンにおいて非常に効果的であることが証明されており、深層畳み込みニューラルネットワークは様々なコンピュータビジョンタスクにおいて印象的な結果を達成する。
しかし、これらのモデルは過度な適合を避けるために大規模なデータセットに大きく依存している。
モデルが低あるいは高分散で特徴を学習すると、トレーニングデータに対する過度な適合や過度な適合につながる可能性がある。
残念ながら、大規模なデータセットは多くのドメインで利用できないかもしれない。
本実験では,ベンガル文字の限られたデータ問題に対処するためのアプローチとして,画像データ拡張の分野で一連の実験を行った。
この研究は、異なる拡張技術の性能に関する詳細な分析も提供する。
データ拡張(Data augmentation)とは、データのサイズと多様性を高めるために適用される一連のテクニックを指し、ディープラーニングモデルをトレーニングするのにより適している。
この研究で評価された画像増強技術には、CLAHE、ランダム回転、ランダムアフィン、カラージッター、およびそれらの組み合わせが含まれる。
この研究は、EfficientViTのような軽量モデルを用いた拡張手法の使用についても検討している。
様々な拡張戦略の中で、Random AffineとColor Jitterの組み合わせはEkush [1]とAIBangla [2]のデータセット上で最も正確で、それぞれ97.48%と97.57%の精度を達成した。
この組み合わせは、他のすべての個人的および複合的な拡張技術より優れていた。
この分析は、特にベンガル語手書き文字認識における画像データ増大の影響を、軽量モデルを用いて徹底的に検証する。
関連論文リスト
- Enhancing Image Classification with Augmentation: Data Augmentation Techniques for Improved Image Classification [0.0]
畳み込みニューラルネットワーク(CNN)は、画像に依存するさまざまな分野の応用を見つけ、ディープラーニングの働きをする。
本研究では,本研究で提案される3つの新しいセットを含む11種類のデータ拡張手法の有効性について検討する。
Caltech-101データセットで最も効果的なものとして、画像拡張技術が提案されている。
論文 参考訳(メタデータ) (2025-02-25T23:03:30Z) - Image compositing is all you need for data augmentation [6.647179199462945]
本稿では,オブジェクト検出モデルの性能に及ぼす各種データ拡張手法の影響について検討する。
商用機と軍用機からなるカスタムデータセット上でモデルを微調整し、異なる拡張戦略を適用します。
論文 参考訳(メタデータ) (2025-02-19T18:24:02Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Additional Look into GAN-based Augmentation for Deep Learning COVID-19
Image Classification [57.1795052451257]
我々は,GANに基づく拡張性能のデータセットサイズ依存性について,小サンプルに着目して検討した。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
論文 参考訳(メタデータ) (2024-01-26T08:28:13Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - Exploring the Effects of Data Augmentation for Drivable Area
Segmentation [0.0]
既存の画像データセットを解析することで、データ拡張の利点を調べることに重点を置いている。
以上の結果から,既存技術(SOTA)モデルの性能とロバスト性は劇的に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-06T03:39:37Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Image Augmentation for Multitask Few-Shot Learning: Agricultural Domain
Use-Case [0.0]
本稿では,植物フェノミクスドメインの例に基づいて,小規模で不均衡なデータセットに挑戦する。
画像拡張フレームワークを導入することで,トレーニングサンプル数を大幅に拡大することができる。
本手法は,少数のトレーニングサンプルが利用可能であれば,モデル性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-24T14:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。