論文の概要: Indonesian Text-to-Image Synthesis with Sentence-BERT and FastGAN
- arxiv url: http://arxiv.org/abs/2303.14517v1
- Date: Sat, 25 Mar 2023 16:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:15:11.731714
- Title: Indonesian Text-to-Image Synthesis with Sentence-BERT and FastGAN
- Title(参考訳): 文BERTとFastGANによるインドネシア語テキスト・画像合成
- Authors: Made Raharja Surya Mahadi and Nugraha Priya Utama
- Abstract要約: 我々はSentence BERTをテキストエンコーダとして、FastGANをイメージジェネレータとして使用します。
CUBデータセットをGoogle翻訳と人手による手作業でバハサに翻訳する。
FastGANは多くのスキップ励起モジュールとオートエンコーダを使用して解像度512x512x3のイメージを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, text-to-image synthesis uses text encoder and image generator
architecture. Research on this topic is challenging. This is because of the
domain gap between natural language and vision. Nowadays, most research on this
topic only focuses on producing a photo-realistic image, but the other domain,
in this case, is the language, which is less concentrated. A lot of the current
research uses English as the input text. Besides, there are many languages
around the world. Bahasa Indonesia, as the official language of Indonesia, is
quite popular. This language has been taught in Philipines, Australia, and
Japan. Translating or recreating a new dataset into another language with good
quality will cost a lot. Research on this domain is necessary because we need
to examine how the image generator performs in other languages besides
generating photo-realistic images. To achieve this, we translate the CUB
dataset into Bahasa using google translate and manually by humans. We use
Sentence BERT as the text encoder and FastGAN as the image generator. FastGAN
uses lots of skip excitation modules and auto-encoder to generate an image with
resolution 512x512x3, which is twice as bigger as the current state-of-the-art
model (Zhang, Xu, Li, Zhang, Wang, Huang and Metaxas, 2019). We also get 4.76
+- 0.43 and 46.401 on Inception Score and Fr\'echet inception distance,
respectively, and comparable with the current English text-to-image generation
models. The mean opinion score also gives as 3.22 out of 5, which means the
generated image is acceptable by humans. Link to source code:
https://github.com/share424/Indonesian-Text-to-Image-synthesis-with-Sentence-BERT-and-FastGAN
- Abstract(参考訳): 現在、テキスト・ツー・イメージ合成はテキストエンコーダと画像生成アーキテクチャを使用している。
この話題の研究は困難である。
これは、自然言語とビジョンのドメイン間ギャップが原因です。
現在、この話題に関するほとんどの研究は、写真リアリスティックな画像のみに焦点が当てられているが、この場合の他の領域は、あまり集中していない言語である。
現在の研究の多くは英語を入力テキストとして使っている。
また、世界中に多くの言語がある。
バハサ・インドネシア語はインドネシアの公用語であり、非常に人気がある。
この言語は、フィリップス、オーストラリア、日本で教えられている。
新しいデータセットを良質な別の言語に翻訳したり再作成したりすると、多くのコストがかかります。
この領域の研究は、フォトリアリスティックな画像を生成する以外に、他の言語で画像生成がどのように機能するかを調べる必要があるためである。
これを実現するために、Google翻訳と人手による手作業でCUBデータセットをバハサに翻訳する。
我々はSentence BERTをテキストエンコーダとして、FastGANをイメージジェネレータとして使用します。
FastGANは多くのスキップ励起モジュールとオートエンコーダを使用して解像度512x512x3の画像を生成しており、これは現在の最先端モデル(Zhang, Xu, Li, Zhang, Wang, Huang, Metaxas, 2019)の2倍の大きさである。
また、4.76 +- 0.43 と 46.401 はそれぞれインセプションスコアと fr\'echet インセプション距離を持ち、現在の英語テキストから画像への生成モデルに匹敵する。
平均評価スコアは5点中3.22点であり、これは生成した画像が人間に受け入れられることを意味する。
ソースコードへのリンク:https://github.com/share424/Indonesian-Text-to-Image- synthesis-with-Sentence-BERT-and-FastGAN
関連論文リスト
- Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language
Representations [83.96551676836776]
Babel-ImageNetは、92の言語に1000のImageNetラベルを部分的に翻訳する、非常に多言語なベンチマークである。
92のBabel-ImageNet言語に対して,ゼロショット画像分類 (ZS-IC) を用いた8種類の多言語CLIPモデルの評価を行った。
Babel-ImageNetにおけるモデルZS-ICの性能は,画像テキスト検索の性能と高い相関性を示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - Learning to Imagine: Visually-Augmented Natural Language Generation [73.65760028876943]
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習する手法を提案する。
拡散モデルを用いて、入力テキストに条件付き高品質な画像を合成する。
段落全体に対して1つの画像のみを生成するのではなく、各文に対して合成を行う。
論文 参考訳(メタデータ) (2023-05-26T13:59:45Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Text to Image Generation: Leaving no Language Behind [6.243995448840211]
本稿では,3つの人気テキスト・画像生成装置の性能が言語にどのように依存するかを検討する。
その結果,英語以外の言語を使用する場合,性能が著しく低下することが示唆された。
これは、この新技術が母国語以外の英語話者によって利用できることを保証するための基本である。
論文 参考訳(メタデータ) (2022-08-19T13:24:56Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z) - Fine-Grained Image Generation from Bangla Text Description using
Attentional Generative Adversarial Network [0.0]
本稿では,高解像度のBanglaテキスト・画像生成のための多段階処理を可能にするBangla Attentional Generative Adversarial Network (AttnGAN)を提案する。
初めて、注目GANを用いてBanglaテキストからきめ細かい画像を生成する。
論文 参考訳(メタデータ) (2021-09-24T05:31:01Z) - CIGLI: Conditional Image Generation from Language & Image [5.159265382427163]
我々はCIGLI: Conditional Image Generation from Language and Imageを提案する。
テキスト画像生成のようにテキストに基づいて画像を生成する代わりに、このタスクでは、テキスト記述と画像プロンプトから画像を生成する必要がある。
論文 参考訳(メタデータ) (2021-08-20T00:58:42Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。