論文の概要: Indonesian Text-to-Image Synthesis with Sentence-BERT and FastGAN
- arxiv url: http://arxiv.org/abs/2303.14517v1
- Date: Sat, 25 Mar 2023 16:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:15:11.731714
- Title: Indonesian Text-to-Image Synthesis with Sentence-BERT and FastGAN
- Title(参考訳): 文BERTとFastGANによるインドネシア語テキスト・画像合成
- Authors: Made Raharja Surya Mahadi and Nugraha Priya Utama
- Abstract要約: 我々はSentence BERTをテキストエンコーダとして、FastGANをイメージジェネレータとして使用します。
CUBデータセットをGoogle翻訳と人手による手作業でバハサに翻訳する。
FastGANは多くのスキップ励起モジュールとオートエンコーダを使用して解像度512x512x3のイメージを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, text-to-image synthesis uses text encoder and image generator
architecture. Research on this topic is challenging. This is because of the
domain gap between natural language and vision. Nowadays, most research on this
topic only focuses on producing a photo-realistic image, but the other domain,
in this case, is the language, which is less concentrated. A lot of the current
research uses English as the input text. Besides, there are many languages
around the world. Bahasa Indonesia, as the official language of Indonesia, is
quite popular. This language has been taught in Philipines, Australia, and
Japan. Translating or recreating a new dataset into another language with good
quality will cost a lot. Research on this domain is necessary because we need
to examine how the image generator performs in other languages besides
generating photo-realistic images. To achieve this, we translate the CUB
dataset into Bahasa using google translate and manually by humans. We use
Sentence BERT as the text encoder and FastGAN as the image generator. FastGAN
uses lots of skip excitation modules and auto-encoder to generate an image with
resolution 512x512x3, which is twice as bigger as the current state-of-the-art
model (Zhang, Xu, Li, Zhang, Wang, Huang and Metaxas, 2019). We also get 4.76
+- 0.43 and 46.401 on Inception Score and Fr\'echet inception distance,
respectively, and comparable with the current English text-to-image generation
models. The mean opinion score also gives as 3.22 out of 5, which means the
generated image is acceptable by humans. Link to source code:
https://github.com/share424/Indonesian-Text-to-Image-synthesis-with-Sentence-BERT-and-FastGAN
- Abstract(参考訳): 現在、テキスト・ツー・イメージ合成はテキストエンコーダと画像生成アーキテクチャを使用している。
この話題の研究は困難である。
これは、自然言語とビジョンのドメイン間ギャップが原因です。
現在、この話題に関するほとんどの研究は、写真リアリスティックな画像のみに焦点が当てられているが、この場合の他の領域は、あまり集中していない言語である。
現在の研究の多くは英語を入力テキストとして使っている。
また、世界中に多くの言語がある。
バハサ・インドネシア語はインドネシアの公用語であり、非常に人気がある。
この言語は、フィリップス、オーストラリア、日本で教えられている。
新しいデータセットを良質な別の言語に翻訳したり再作成したりすると、多くのコストがかかります。
この領域の研究は、フォトリアリスティックな画像を生成する以外に、他の言語で画像生成がどのように機能するかを調べる必要があるためである。
これを実現するために、Google翻訳と人手による手作業でCUBデータセットをバハサに翻訳する。
我々はSentence BERTをテキストエンコーダとして、FastGANをイメージジェネレータとして使用します。
FastGANは多くのスキップ励起モジュールとオートエンコーダを使用して解像度512x512x3の画像を生成しており、これは現在の最先端モデル(Zhang, Xu, Li, Zhang, Wang, Huang, Metaxas, 2019)の2倍の大きさである。
また、4.76 +- 0.43 と 46.401 はそれぞれインセプションスコアと fr\'echet インセプション距離を持ち、現在の英語テキストから画像への生成モデルに匹敵する。
平均評価スコアは5点中3.22点であり、これは生成した画像が人間に受け入れられることを意味する。
ソースコードへのリンク:https://github.com/share424/Indonesian-Text-to-Image- synthesis-with-Sentence-BERT-and-FastGAN
関連論文リスト
- OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding [57.22231959529641]
Hunyuan-DiTは、英語と中国語の両方を詳細に理解したテキスト・画像拡散変換器である。
詳細な言語理解のために、画像のキャプションを洗練させるためにマルチモーダル大言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-14T16:33:25Z) - An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - Learning to Imagine: Visually-Augmented Natural Language Generation [73.65760028876943]
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習する手法を提案する。
拡散モデルを用いて、入力テキストに条件付き高品質な画像を合成する。
段落全体に対して1つの画像のみを生成するのではなく、各文に対して合成を行う。
論文 参考訳(メタデータ) (2023-05-26T13:59:45Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - Text to Image Generation: Leaving no Language Behind [6.243995448840211]
本稿では,3つの人気テキスト・画像生成装置の性能が言語にどのように依存するかを検討する。
その結果,英語以外の言語を使用する場合,性能が著しく低下することが示唆された。
これは、この新技術が母国語以外の英語話者によって利用できることを保証するための基本である。
論文 参考訳(メタデータ) (2022-08-19T13:24:56Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z) - Fine-Grained Image Generation from Bangla Text Description using
Attentional Generative Adversarial Network [0.0]
本稿では,高解像度のBanglaテキスト・画像生成のための多段階処理を可能にするBangla Attentional Generative Adversarial Network (AttnGAN)を提案する。
初めて、注目GANを用いてBanglaテキストからきめ細かい画像を生成する。
論文 参考訳(メタデータ) (2021-09-24T05:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。