Fugu-MT 論文翻訳(概要): Convolutional Bidirectional Variational Autoencoder for Image Domain Translation of Dotted Arabic Expiration

論文の概要: Convolutional Bidirectional Variational Autoencoder for Image Domain Translation of Dotted Arabic Expiration

arxiv url: http://arxiv.org/abs/2310.14069v1
Date: Sat, 21 Oct 2023 17:20:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 02:02:48.818289
Title: Convolutional Bidirectional Variational Autoencoder for Image Domain Translation of Dotted Arabic Expiration
Title（参考訳）: アラビア画像領域変換のための畳み込み双方向変分オートエンコーダ
Authors: Ahmed Zidane, Ghada Soliman
Abstract要約: LCBVAE+CRNNのパイプラインは、有効期限を抽出する自動ソートシステムに統合することができる。提案手法は, LCBVAEアーキテクチャを用いて画像翻訳において97%の精度を達成した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: THIS paper proposes an approach of Ladder Bottom-up Convolutional Bidirectional Variational Autoencoder (LCBVAE) architecture for the encoder and decoder, which is trained on the image translation of the dotted Arabic expiration dates by reconstructing the Arabic dotted expiration dates into filled-in expiration dates. We employed a customized and adapted version of Convolutional Recurrent Neural Network CRNN model to meet our specific requirements and enhance its performance in our context, and then trained the custom CRNN model with the filled-in images from the year of 2019 to 2027 to extract the expiration dates and assess the model performance of LCBVAE on the expiration date recognition. The pipeline of (LCBVAE+CRNN) can be then integrated into an automated sorting systems for extracting the expiry dates and sorting the products accordingly during the manufacture stage. Additionally, it can overcome the manual entry of expiration dates that can be time-consuming and inefficient at the merchants. Due to the lack of the availability of the dotted Arabic expiration date images, we created an Arabic dot-matrix True Type Font (TTF) for the generation of the synthetic images. We trained the model with unrealistic synthetic dates of 59902 images and performed the testing on a realistic synthetic date of 3287 images from the year of 2019 to 2027, represented as yyyy/mm/dd. In our study, we demonstrated the significance of latent bottleneck layer with improving the generalization when the size is increased up to 1024 in downstream transfer learning tasks as for image translation. The proposed approach achieved an accuracy of 97% on the image translation with using the LCBVAE architecture that can be generalized for any downstream learning tasks as for image translation and reconstruction.
Abstract（参考訳）: THIS論文は,アラビア語の点滅期限を満了期限に再構成することにより,点滅期限のイメージ翻訳を訓練したエンコーダとデコーダのためのラダーボトムアップ畳み込み畳み込み双方向変分自動エンコーダ(LCBVAE)アーキテクチャを提案する。また,2019年度から2027年度にかけての具体化画像を用いたカスタムcrnnモデルを訓練し,有効期限を抽出し,有効期限認識におけるlcbvaeのモデル性能を評価する。次に、(lcbvae+crnn)のパイプラインを自動選別システムに統合し、有効期限を抽出し、製造段階でそれに従って製品を選別する。さらに、商業者にとって時間がかかり非効率な有効期限のマニュアル入力を克服することができる。点滅したアラビア語の有効期限日画像が得られなかったため、合成画像を生成するために、TTF(dot-matrix True Type Font)を作成した。 59902画像の非現実的な合成日程でモデルを訓練し、2019年から2027年までの3287画像のリアルな合成日程をyyy/mm/ddと表現した。本研究では,画像翻訳のような下流移動学習タスクにおいて,サイズが1024まで大きくなると一般化し,潜在ボトルネック層の重要性を実証した。提案手法は,LCBVAEアーキテクチャを用いて画像翻訳の精度97%を達成し,画像翻訳や再構成などの下流学習タスクを一般化した。

関連論文リスト

Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-03T08:15:39Z)
Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文参考訳（メタデータ） (2024-03-20T17:59:43Z)
Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2023-11-24T05:17:01Z)
PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文参考訳（メタデータ） (2023-10-22T08:45:48Z)
Deep Aramaic: Towards a Synthetic Data Paradigm Enabling Machine Learning in Epigraphy [6.281814525187968]
我々の研究は、古アラマ文字に合わせて合成訓練データを生成する革新的な手法を開拓した。我々のパイプラインは、写真リアリスティックなアラマ文字の碑文を合成し、テクスチュラルな特徴、照明、損傷、拡張を取り入れている。この包括的なコーパスは、高度に劣化したアラマ文字を分類するために残留ニューラルネットワーク(ResNet)をトレーニングするための堅牢なデータ量を提供する。
論文参考訳（メタデータ） (2023-10-11T08:47:29Z)
NLLB-CLIP -- train performant multilingual image retrieval model on a budget [65.268245109828]
NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。 201言語でキャプションを持つ106,246の良質な画像のデータセットを自動生成しました。我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。
論文参考訳（メタデータ） (2023-09-04T23:26:11Z)
An Image captioning algorithm based on the Hybrid Deep Learning Technique (CNN+GRU) [0.0]
本稿では,CNN-GRUエンコーダデコーダのキャプション・ツー・イメージ・コンストラクタ用デコーダフレームワークを提案する。意味的なコンテキストと時間の複雑さを考慮に入れます。提案モデルでは,画像キャプションのための最先端のLSTM-A5モデルよりも,時間的複雑性と精度が優れている。
論文参考訳（メタデータ） (2023-01-06T10:00:06Z)
An End-to-End OCR Framework for Robust Arabic-Handwriting Recognition using a Novel Transformers-based Model and an Innovative 270 Million-Words Multi-Font Corpus of Classical Arabic with Diacritics [0.0]
この研究は、アラビア歴史文書の光学文字認識(OCR)の開発に関する一連の研究の第2段階である。本稿では,視覚変換器をエンコーダ,つまりBEIT,バニラ変換器をデコーダとし,特徴抽出のためのCNNを排除し,モデルの複雑さを低減したエンドツーエンドテキスト認識手法を提案する。
論文参考訳（メタデータ） (2022-08-20T22:21:19Z)
Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。 COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文参考訳（メタデータ） (2022-07-26T19:35:49Z)
Efficient Modeling of Future Context for Image Captioning [38.52032153180971]
非自己回帰画像キャプション(NAIC)は、マスク操作の修正による2面関係を利用することができる。提案手法は,自動測定と人的評価の両方において,最先端のベースラインを超えている。
論文参考訳（メタデータ） (2022-07-22T06:21:43Z)
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文参考訳（メタデータ） (2022-05-23T17:42:53Z)
"Wikily" Neural Machine Translation Tailored to Cross-Lingual Tasks [20.837515947519524]
リンクされたウィキペディアページの最初の文とタイトル、およびクロスリンガル画像キャプションは、二言語辞書を抽出し、ウィキペディアからパラレルテキストをマイニングするためのクロスリンガル単語埋め込みを抽出するシードパラレルデータのための強力な信号である。画像キャプションでは、アラビア語の訓練データが英語のキャプションデータのウィキリー翻訳であるアラビア語と英語のマルチタスク機械翻訳と画像キャプションパイプラインを訓練する。アラビア語の字幕化の結果は、教師付きモデルよりも若干優れている。
論文参考訳（メタデータ） (2021-04-16T21:49:12Z)
Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文参考訳（メタデータ） (2020-12-01T17:18:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。