論文の概要: MUSE: Textual Attributes Guided Portrait Painting Generation
- arxiv url: http://arxiv.org/abs/2011.04761v2
- Date: Mon, 20 Sep 2021 01:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:36:20.206034
- Title: MUSE: Textual Attributes Guided Portrait Painting Generation
- Title(参考訳): MUSE: テクスチュアル・属性によるポートレート・ペイント・ジェネレーション
- Authors: Xiaodan Hu, Pengfei Yu, Kevin Knight, Heng Ji, Bo Li, Honghui Shi
- Abstract要約: ポートレート生成によるテキスト属性を視覚的に記述するための新しい手法 MUSE を提案する。
MUSEはテキストで書かれた属性のセットと、被写体の写真から抽出された顔の特徴を入力として取り出す。
実験の結果,本手法は78%のテキスト属性を正確に表現することができ,MUSEがより創造的で表現力のある方法で対象を捉えるのに役立つことがわかった。
- 参考スコア(独自算出の注目度): 58.309932745538624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel approach, MUSE, to illustrate textual attributes visually
via portrait generation. MUSE takes a set of attributes written in text, in
addition to facial features extracted from a photo of the subject as input. We
propose 11 attribute types to represent inspirations from a subject's profile,
emotion, story, and environment. We propose a novel stacked neural network
architecture by extending an image-to-image generative model to accept textual
attributes. Experiments show that our approach significantly outperforms
several state-of-the-art methods without using textual attributes, with
Inception Score score increased by 6% and Fr\'echet Inception Distance (FID)
score decreased by 11%, respectively. We also propose a new attribute
reconstruction metric to evaluate whether the generated portraits preserve the
subject's attributes. Experiments show that our approach can accurately
illustrate 78% textual attributes, which also help MUSE capture the subject in
a more creative and expressive way.
- Abstract(参考訳): ポートレート生成によるテキスト属性を視覚的に記述するための新しい手法 MUSE を提案する。
MUSEはテキストで書かれた属性のセットと、被写体の写真から抽出された顔の特徴を入力として取り出す。
被験者のプロファイル,感情,物語,環境からのインスピレーションを表す属性タイプを11種類提案する。
本稿では,画像から画像への生成モデルを拡張し,テキスト属性を受け入れる新しい階層型ニューラルネットワークアーキテクチャを提案する。
実験の結果,本手法はテキスト属性を使わずにいくつかの最先端手法よりも優れており,インセプションスコアは6%,Fr'echet Inception Distance(FID)スコアは11%低下していた。
また,生成した画像が対象の属性を保存するかどうかを評価するために,新たな属性再構成指標を提案する。
実験の結果,本手法は78%のテキスト属性を正確に表現することができ,MUSEがより創造的で表現力のある方法で対象を捉えるのに役立つことがわかった。
関連論文リスト
- A Novel Evaluation Framework for Image2Text Generation [15.10524860121122]
本稿では,画像生成が可能な現代大規模言語モデル(LLM)に根ざした評価フレームワークを提案する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成することを示唆している。
類似度の低いスコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにする。
論文 参考訳(メタデータ) (2024-08-03T09:27:57Z) - MARS: Paying more attention to visual attributes for text-based person search [6.438244172631555]
本稿ではMARS(Mae-Attribute-Relation-Sensitive)という新しいTBPSアーキテクチャを提案する。
ビジュアルレコンストラクションロスと属性ロスという2つの重要なコンポーネントを導入することで、現在の最先端モデルを強化する。
CUHK-PEDES、ICFG-PEDES、RSTPReidの3つの一般的なデータセットの実験では、パフォーマンス改善が報告されている。
論文 参考訳(メタデータ) (2024-07-05T06:44:43Z) - Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace [52.24866347353916]
本稿では,テキストサブスペースへのターゲット埋め込みを効率的に探索する手法を提案する。
また,テキスト部分空間の基底を決定するための効率的な選択戦略を提案する。
本手法は、個人化されたテキスト・画像生成のためのより効率的な表現学習への扉を開く。
論文 参考訳(メタデータ) (2024-06-30T06:41:21Z) - Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search [19.610244285078483]
本稿では,テキスト属性と画像間の局所的な表現の対応を学習するためのAIMA(Attribute-Aware Implicit Modality Alignment)フレームワークを提案する。
提案手法は,現在の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-06-06T03:34:42Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image
Generation [18.36261166580862]
テキスト・ツー・イメージ生成は、与えられたテキスト記述に従って、フォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。
既存の方法は、画像を表すために1つの文のみからテキスト情報を抽出する。
属性情報を補完する有効なテキスト表現法を提案する。
論文 参考訳(メタデータ) (2022-09-28T12:28:54Z) - Composition and Style Attributes Guided Image Aesthetic Assessment [66.60253358722538]
本稿では,画像の美学を自動予測する手法を提案する。
提案ネットワークには,意味的特徴抽出のための事前学習ネットワーク(Backbone)と,画像属性の予測にBackbone機能に依存するマルチレイヤパーセプトロン(MLP)ネットワーク(AttributeNet)が含まれる。
画像が与えられた場合、提案するマルチネットワークは、スタイルと構成属性、および美的スコア分布を予測できる。
論文 参考訳(メタデータ) (2021-11-08T17:16:38Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。