論文の概要: Fine-Grained Image Generation from Bangla Text Description using
Attentional Generative Adversarial Network
- arxiv url: http://arxiv.org/abs/2109.11749v1
- Date: Fri, 24 Sep 2021 05:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 00:24:49.574037
- Title: Fine-Grained Image Generation from Bangla Text Description using
Attentional Generative Adversarial Network
- Title(参考訳): Antentional Generative Adversarial Network を用いたBanglaテキスト記述からの微粒化画像生成
- Authors: Md Aminul Haque Palash, Md Abdullah Al Nasim, Aditi Dhali, Faria Afrin
- Abstract要約: 本稿では,高解像度のBanglaテキスト・画像生成のための多段階処理を可能にするBangla Attentional Generative Adversarial Network (AttnGAN)を提案する。
初めて、注目GANを用いてBanglaテキストからきめ細かい画像を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generating fine-grained, realistic images from text has many applications in
the visual and semantic realm. Considering that, we propose Bangla Attentional
Generative Adversarial Network (AttnGAN) that allows intensified, multi-stage
processing for high-resolution Bangla text-to-image generation. Our model can
integrate the most specific details at different sub-regions of the image. We
distinctively concentrate on the relevant words in the natural language
description. This framework has achieved a better inception score on the CUB
dataset. For the first time, a fine-grained image is generated from Bangla text
using attentional GAN. Bangla has achieved 7th position among 100 most spoken
languages. This inspires us to explicitly focus on this language, which will
ensure the inevitable need of many people. Moreover, Bangla has a more complex
syntactic structure and less natural language processing resource that
validates our work more.
- Abstract(参考訳): テキストからきめ細かい現実的な画像を生成することは、ビジュアルとセマンティックの領域で多くの応用がある。
そこで我々は,高解像度のBanglaテキスト・画像生成のための多段階処理を可能にするBangla Attentional Generative Adversarial Network (AttnGAN)を提案する。
我々のモデルは、画像の異なる部分領域で最も具体的な詳細を統合することができる。
自然言語記述における関連語に特化して集中する。
このフレームワークは、CUBデータセットの開始スコアが向上しました。
初めて、注目GANを用いてBanglaテキストからきめ細かい画像を生成する。
バングラ語は100の言語の中で7番目の地位を獲得している。
これは、この言語に明示的に焦点を合わせ、多くの人の必然的に必要となることを保証します。
さらに、Banglaはより複雑な構文構造を持ち、作業をより検証するための自然言語処理リソースが少ない。
関連論文リスト
- An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - PLIP: Language-Image Pre-training for Person Representation Learning [51.348303233290025]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
このフレームワークを実装するために,SynTH-PEDESという画像テキストペアを用いた大規模人物データセットを構築した。
PLIPはこれらのタスクの既存のメソッドを大幅に改善するだけでなく、ゼロショットやドメインの一般化設定でも優れた機能を示している。
論文 参考訳(メタデータ) (2023-05-15T06:49:00Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Indonesian Text-to-Image Synthesis with Sentence-BERT and FastGAN [0.0]
我々はSentence BERTをテキストエンコーダとして、FastGANをイメージジェネレータとして使用します。
CUBデータセットをGoogle翻訳と人手による手作業でバハサに翻訳する。
FastGANは多くのスキップ励起モジュールとオートエンコーダを使用して解像度512x512x3のイメージを生成する。
論文 参考訳(メタデータ) (2023-03-25T16:54:22Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Incongruity Detection between Bangla News Headline and Body Content
through Graph Neural Network [0.0]
ニュースの見出しと内容の一致は、読者を惹きつけるのに使用される詐欺の一般的な方法である。
本稿では,Banglaニュースの見出しとコンテンツ段落の類似性と矛盾を効果的に学習するグラフベースの階層型デュアルエンコーダモデルを提案する。
提案したBanglaグラフベースのニューラルネットワークモデルは,さまざまなBanglaニュースデータセットに対して90%以上の精度を実現する。
論文 参考訳(メタデータ) (2022-10-26T20:57:45Z) - BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset [0.5893124686141781]
Banglaのようなリソース制約のある言語は、標準データセットの欠如が主な原因で、焦点が当てられていない。
Flickr8kで広く使われているデータセットのBAN-Capに続き、資格アノテータが提供した画像のBanglaキャプションを収集する。
テキスト増強の効果について検討し,適応的注意に基づくモデルと文脈的単語置換(CWR)を用いたテキスト増強が,Bangla画像キャプションの最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-28T15:39:09Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visually Grounded Reasoning across Languages and Cultures [27.31020761908739]
我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。
我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。
画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
論文 参考訳(メタデータ) (2021-09-28T16:51:38Z) - TextMage: The Automated Bangla Caption Generator Based On Deep Learning [1.2330326247154968]
TextMageはバングラデシュの地理的文脈に属する視覚シーンを理解することができるシステムである。
このデータセットには、9,154のイメージと、各イメージに対する2つのアノテーションが含まれている。
論文 参考訳(メタデータ) (2020-10-15T23:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。