論文の概要: Text-to-Image Generation with Attention Based Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2001.06658v1
- Date: Sat, 18 Jan 2020 12:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 05:22:34.335809
- Title: Text-to-Image Generation with Attention Based Recurrent Neural Networks
- Title(参考訳): 注意に基づくリカレントニューラルネットワークを用いたテキスト・画像生成
- Authors: Tehseen Zia, Shahan Arif, Shakeeb Murtaza, and Mirza Ahsan Ullah
- Abstract要約: 我々は,安定なキャプションベース画像生成モデルを構築した。
実験はMicrosoftデータセット上で行われる。
その結果,提案手法は現代の手法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 1.2599533416395765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional image modeling based on textual descriptions is a relatively new
domain in unsupervised learning. Previous approaches use a latent variable
model and generative adversarial networks. While the formers are approximated
by using variational auto-encoders and rely on the intractable inference that
can hamper their performance, the latter is unstable to train due to Nash
equilibrium based objective function. We develop a tractable and stable
caption-based image generation model. The model uses an attention-based encoder
to learn word-to-pixel dependencies. A conditional autoregressive based decoder
is used for learning pixel-to-pixel dependencies and generating images.
Experimentations are performed on Microsoft COCO, and MNIST-with-captions
datasets and performance is evaluated by using the Structural Similarity Index.
Results show that the proposed model performs better than contemporary
approaches and generate better quality images. Keywords: Generative image
modeling, autoregressive image modeling, caption-based image generation, neural
attention, recurrent neural networks.
- Abstract(参考訳): テキスト記述に基づく条件付き画像モデリングは教師なし学習における比較的新しい領域である。
以前のアプローチでは、潜在変数モデルと生成逆ネットワークを使用している。
前者は変分オートエンコーダを用いて近似され、その性能を阻害する難解な推論に依存するが、後者はナッシュ平衡に基づく目的関数により訓練が不安定である。
我々は,安定なキャプションベース画像生成モデルを開発した。
このモデルは、単語からピクセルへの依存性を学ぶために注意に基づくエンコーダを使用する。
条件付き自己回帰型デコーダを用いて画素間の依存関係を学習し、画像を生成する。
実験はMicrosoft COCO上で行われ、MNIST-with-captionsデータセットと性能は構造類似度指数を用いて評価される。
その結果,提案モデルは現代の手法よりも優れた性能を示し,高品質な画像を生成する。
キーワード: 生成画像モデリング、自己回帰画像モデリング、キャプションベースの画像生成、ニューラルアテンション、リカレントニューラルネットワーク。
関連論文リスト
- Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Exploring Stochastic Autoregressive Image Modeling for Visual
Representation [24.582376834198403]
本稿では,2つの簡単な設計による自己回帰画像モデリング(SAIM)を提案する。
予測と並列エンコーダデコーダの導入により,SAIMは自己回帰画像モデリングの性能を著しく向上させる。
提案手法は,ImageNet-1Kデータのみを用いて,バニラVTベースモデル上で最高の精度(83.9%)を実現する。
論文 参考訳(メタデータ) (2022-12-03T13:04:29Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Neural Knitworks: Patched Neural Implicit Representation Networks [1.0470286407954037]
画像合成を実現する自然画像の暗黙的表現学習のためのアーキテクチャであるKnitworkを提案する。
私たちの知る限りでは、画像のインペインティング、超解像化、デノイングといった合成作業に適した座標ベースのパッチの実装は、これが初めてである。
その結果, ピクセルではなくパッチを用いた自然な画像のモデリングにより, 忠実度が高い結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T13:10:46Z) - Comparative evaluation of CNN architectures for Image Caption Generation [1.2183405753834562]
2つの人気のある画像キャプチャ生成フレームワークで17種類の畳み込みニューラルネットワークを評価した。
我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。
論文 参考訳(メタデータ) (2021-02-23T05:43:54Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。