論文の概要: Ladder Bottom-up Convolutional Bidirectional Variational Autoencoder for Image Translation of Dotted Arabic Expiration Dates
- arxiv url: http://arxiv.org/abs/2310.14069v2
- Date: Tue, 01 Oct 2024 14:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:37.368773
- Title: Ladder Bottom-up Convolutional Bidirectional Variational Autoencoder for Image Translation of Dotted Arabic Expiration Dates
- Title(参考訳): ラダーボトムアップ畳み込み二方向変分オートエンコーダによるドットアラビア有効期限の画像翻訳
- Authors: Ahmed Zidane, Ghada Soliman,
- Abstract要約: 本稿では,Ladder Bottom-up Convolutional Bidirectional Variational Autoencoder (LCBVAE) アーキテクチャのエンコーダおよびデコーダへの応用を提案する。
アラビア語の点滅期限を満了期限に再構築することで、点滅期限のイメージ翻訳を訓練する。
提案手法は, LCBVAEアーキテクチャを用いて画像翻訳において97%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper proposes an approach of Ladder Bottom-up Convolutional Bidirectional Variational Autoencoder (LCBVAE) architecture for the encoder and decoder, which is trained on the image translation of the dotted Arabic expiration dates by reconstructing the Arabic dotted expiration dates into filled-in expiration dates. We employed a customized and adapted version of Convolutional Recurrent Neural Network CRNN model to meet our specific requirements and enhance its performance in our context, and then trained the custom CRNN model with the filled-in images from the year of 2019 to 2027 to extract the expiration dates and assess the model performance of LCBVAE on the expiration date recognition. The pipeline of (LCBVAE+CRNN) can be then integrated into an automated sorting systems for extracting the expiry dates and sorting the products accordingly during the manufacture stage. Additionally, it can overcome the manual entry of expiration dates that can be time-consuming and inefficient at the merchants. Due to the lack of the availability of the dotted Arabic expiration date images, we created an Arabic dot-matrix True Type Font (TTF) for the generation of the synthetic images. We trained the model with unrealistic synthetic dates of 60,000 images and performed the testing on a realistic synthetic date of 3000 images from the year of 2019 to 2027, represented as yyyy/mm/dd. In our study, we demonstrated the significance of latent bottleneck layer with improving the generalization when the size is increased up to 1024 in downstream transfer learning tasks as for image translation. The proposed approach achieved an accuracy of 97% on the image translation with using the LCBVAE architecture that can be generalized for any downstream learning tasks as for image translation and reconstruction.
- Abstract(参考訳): 本稿では,アラビアの点滅期限を満了期限に再構成することで,点滅期限のイメージ翻訳を訓練したエンコーダとデコーダのためのラダーボトムアップ畳み込み双方向変分自動エンコーダ(LCBVAE)アーキテクチャを提案する。
そして、2019年から2027年までの満載画像を用いてカスタムCRNNモデルを訓練し、有効期限を抽出し、LCBVAEのモデル性能を有効期限認識に基づいて評価した。
その後、(LCBVAE+CRNN)のパイプラインを自動ソートシステムに統合して、有効期限を抽出し、製造段階で商品をソートする。
さらに、商業者にとって時間がかかり非効率な有効期限のマニュアル入力を克服することができる。
点滅したアラビア語の有効期限日画像が得られなかったため、合成画像を生成するために、TTF(dot-matrix True Type Font)を作成した。
我々は,非現実的な合成日6万枚の画像を用いてモデルを訓練し,2019年から2027年にかけて,yyy/mm/ddとして表現された3000枚の画像の現実的な合成日をテストした。
本研究では,画像翻訳のような下流移動学習タスクにおいて,サイズが1024まで大きくなると一般化が向上し,潜在ボトルネック層の重要性を実証した。
提案手法は,LCBVAEアーキテクチャを用いて画像翻訳の精度97%を達成し,画像翻訳や再構成などの下流学習タスクを一般化した。
関連論文リスト
- Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - Deep Aramaic: Towards a Synthetic Data Paradigm Enabling Machine
Learning in Epigraphy [6.281814525187968]
我々の研究は、古アラマ文字に合わせて合成訓練データを生成する革新的な手法を開拓した。
我々のパイプラインは、写真リアリスティックなアラマ文字の碑文を合成し、テクスチュラルな特徴、照明、損傷、拡張を取り入れている。
この包括的なコーパスは、高度に劣化したアラマ文字を分類するために残留ニューラルネットワーク(ResNet)をトレーニングするための堅牢なデータ量を提供する。
論文 参考訳(メタデータ) (2023-10-11T08:47:29Z) - NLLB-CLIP -- train performant multilingual image retrieval model on a
budget [65.268245109828]
NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。
201言語でキャプションを持つ106,246の良質な画像のデータセットを自動生成しました。
我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。
論文 参考訳(メタデータ) (2023-09-04T23:26:11Z) - An Image captioning algorithm based on the Hybrid Deep Learning
Technique (CNN+GRU) [0.0]
本稿では,CNN-GRUエンコーダデコーダのキャプション・ツー・イメージ・コンストラクタ用デコーダフレームワークを提案する。
意味的なコンテキストと時間の複雑さを考慮に入れます。
提案モデルでは,画像キャプションのための最先端のLSTM-A5モデルよりも,時間的複雑性と精度が優れている。
論文 参考訳(メタデータ) (2023-01-06T10:00:06Z) - An End-to-End OCR Framework for Robust Arabic-Handwriting Recognition
using a Novel Transformers-based Model and an Innovative 270 Million-Words
Multi-Font Corpus of Classical Arabic with Diacritics [0.0]
この研究は、アラビア歴史文書の光学文字認識(OCR)の開発に関する一連の研究の第2段階である。
本稿では,視覚変換器をエンコーダ,つまりBEIT,バニラ変換器をデコーダとし,特徴抽出のためのCNNを排除し,モデルの複雑さを低減したエンドツーエンドテキスト認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-20T22:21:19Z) - Efficient Modeling of Future Context for Image Captioning [38.52032153180971]
非自己回帰画像キャプション(NAIC)は、マスク操作の修正による2面関係を利用することができる。
提案手法は,自動測定と人的評価の両方において,最先端のベースラインを超えている。
論文 参考訳(メタデータ) (2022-07-22T06:21:43Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - "Wikily" Neural Machine Translation Tailored to Cross-Lingual Tasks [20.837515947519524]
リンクされたウィキペディアページの最初の文とタイトル、およびクロスリンガル画像キャプションは、二言語辞書を抽出し、ウィキペディアからパラレルテキストをマイニングするためのクロスリンガル単語埋め込みを抽出するシードパラレルデータのための強力な信号である。
画像キャプションでは、アラビア語の訓練データが英語のキャプションデータのウィキリー翻訳であるアラビア語と英語のマルチタスク機械翻訳と画像キャプションパイプラインを訓練する。
アラビア語の字幕化の結果は、教師付きモデルよりも若干優れている。
論文 参考訳(メタデータ) (2021-04-16T21:49:12Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。