論文の概要: Performance Evaluation of Deep Generative Models for Generating
Hand-Written Character Images
- arxiv url: http://arxiv.org/abs/2002.11424v1
- Date: Wed, 26 Feb 2020 12:09:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 15:35:23.884412
- Title: Performance Evaluation of Deep Generative Models for Generating
Hand-Written Character Images
- Title(参考訳): 手書き文字画像生成のための深部生成モデルの性能評価
- Authors: Tanmoy Mondal, LE Thi Thuy Trang, Micka\"el Coustaty and Jean-Marc
Ogier
- Abstract要約: 各種自動エンコーダ(AE)とGAN(Generative Adversarial Networks)の評価を行った。
本稿では,各種のAEとGANを評価し,手書き数字データセット(MNIST)とインドネシアのBALI言語の歴史的手書き文字データセットとの比較を行った。
- 参考スコア(独自算出の注目度): 0.5536916056861976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been many work in the literature on generation of various kinds of
images such as Hand-Written characters (MNIST dataset), scene images (CIFAR-10
dataset), various objects images (ImageNet dataset), road signboard images
(SVHN dataset) etc. Unfortunately, there have been very limited amount of work
done in the domain of document image processing. Automatic image generation can
lead to the enormous increase of labeled datasets with the help of only limited
amount of labeled data. Various kinds of Deep generative models can be
primarily divided into two categories. First category is auto-encoder (AE) and
the second one is Generative Adversarial Networks (GANs). In this paper, we
have evaluated various kinds of AE as well as GANs and have compared their
performances on hand-written digits dataset (MNIST) and also on historical
hand-written character dataset of Indonesian BALI language. Moreover, these
generated characters are recognized by using character recognition tool for
calculating the statistical performance of these generated characters with
respect to original character images.
- Abstract(参考訳): 手書き文字(MNISTデータセット)、シーンイメージ(CIFAR-10データセット)、さまざまなオブジェクトイメージ(ImageNetデータセット)、道路標識画像(SVHNデータセット)など、さまざまな種類の画像の生成に関する文献が多数存在する。
残念ながら、ドキュメント画像処理の領域では、非常に限られた作業しか行われていません。
自動画像生成は、限られた量のラベルデータの助けを借りて、ラベル付きデータセットの大幅な増加につながる可能性がある。
様々な種類の深層生成モデルは、主に2つのカテゴリに分けられる。
1つ目は自動エンコーダ(AE)、2つ目はGAN(Generative Adversarial Networks)である。
本稿では,様々な種類のaeとganを評価し,その性能をインドネシア・バリ語の手書き文字データセット(mnist)と歴史的手書き文字データセットで比較した。
また、これらの生成文字の原文字画像に対する統計的性能を計算するための文字認識ツールを用いて、これらの生成文字を認識する。
関連論文リスト
- ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - HandsOff: Labeled Dataset Generation With No Additional Human
Annotations [13.11411442720668]
本稿では,任意の数の合成画像と対応するラベルを生成する技術であるHandsOffフレームワークを紹介する。
本フレームワークは,GANインバージョンフィールドとデータセット生成を統一することにより,先行作業の現実的な欠点を回避する。
顔、車、フルボディの人間のポーズ、都市運転シーンなど、複数の挑戦的な領域において、リッチなピクセルワイズラベルを持つデータセットを生成します。
論文 参考訳(メタデータ) (2022-12-24T03:37:02Z) - Weakly Supervised Annotations for Multi-modal Greeting Cards Dataset [8.397847537464534]
我々は,Greeting Cardsデータセットから抽象的な視覚概念を学ぶために,事前訓練された画像とテキスト埋め込みから特徴を集約することを提案する。
提案したデータセットは、事前訓練されたテキスト・ツー・イメージ生成モデルを用いて、挨拶カード画像を生成するのにも有用である。
論文 参考訳(メタデータ) (2022-12-01T20:07:52Z) - Augraphy: A Data Augmentation Library for Document Images [59.457999432618614]
Augraphyはデータ拡張パイプラインを構築するためのPythonライブラリである。
標準的なオフィス操作によって変更されたように見えるクリーンなドキュメントイメージの拡張版を作成するための戦略を提供する。
論文 参考訳(メタデータ) (2022-08-30T22:36:19Z) - Towards Multimodal Vision-Language Models Generating Non-Generic Text [2.102846336724103]
視覚言語モデルは、画像内の視覚的コンテキストを評価し、記述的なテキストを生成することができる。
近年の研究では、画像から抽出したテキストで視覚情報を補うために光学文字認識が用いられている。
本研究では、画像から抽出できるが、現在のモデルでは使用されない付加的な情報から、視覚言語モデルが恩恵を受けることができると論じる。
論文 参考訳(メタデータ) (2022-07-09T01:56:35Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。