論文の概要: MUSE: Textual Attributes Guided Portrait Painting Generation
- arxiv url: http://arxiv.org/abs/2011.04761v2
- Date: Mon, 20 Sep 2021 01:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:36:20.206034
- Title: MUSE: Textual Attributes Guided Portrait Painting Generation
- Title(参考訳): MUSE: テクスチュアル・属性によるポートレート・ペイント・ジェネレーション
- Authors: Xiaodan Hu, Pengfei Yu, Kevin Knight, Heng Ji, Bo Li, Honghui Shi
- Abstract要約: ポートレート生成によるテキスト属性を視覚的に記述するための新しい手法 MUSE を提案する。
MUSEはテキストで書かれた属性のセットと、被写体の写真から抽出された顔の特徴を入力として取り出す。
実験の結果,本手法は78%のテキスト属性を正確に表現することができ,MUSEがより創造的で表現力のある方法で対象を捉えるのに役立つことがわかった。
- 参考スコア(独自算出の注目度): 58.309932745538624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel approach, MUSE, to illustrate textual attributes visually
via portrait generation. MUSE takes a set of attributes written in text, in
addition to facial features extracted from a photo of the subject as input. We
propose 11 attribute types to represent inspirations from a subject's profile,
emotion, story, and environment. We propose a novel stacked neural network
architecture by extending an image-to-image generative model to accept textual
attributes. Experiments show that our approach significantly outperforms
several state-of-the-art methods without using textual attributes, with
Inception Score score increased by 6% and Fr\'echet Inception Distance (FID)
score decreased by 11%, respectively. We also propose a new attribute
reconstruction metric to evaluate whether the generated portraits preserve the
subject's attributes. Experiments show that our approach can accurately
illustrate 78% textual attributes, which also help MUSE capture the subject in
a more creative and expressive way.
- Abstract(参考訳): ポートレート生成によるテキスト属性を視覚的に記述するための新しい手法 MUSE を提案する。
MUSEはテキストで書かれた属性のセットと、被写体の写真から抽出された顔の特徴を入力として取り出す。
被験者のプロファイル,感情,物語,環境からのインスピレーションを表す属性タイプを11種類提案する。
本稿では,画像から画像への生成モデルを拡張し,テキスト属性を受け入れる新しい階層型ニューラルネットワークアーキテクチャを提案する。
実験の結果,本手法はテキスト属性を使わずにいくつかの最先端手法よりも優れており,インセプションスコアは6%,Fr'echet Inception Distance(FID)スコアは11%低下していた。
また,生成した画像が対象の属性を保存するかどうかを評価するために,新たな属性再構成指標を提案する。
実験の結果,本手法は78%のテキスト属性を正確に表現することができ,MUSEがより創造的で表現力のある方法で対象を捉えるのに役立つことがわかった。
関連論文リスト
- Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - FaceAtt: Enhancing Image Captioning with Facial Attributes for Portrait
Images [0.0]
FaceAttは属性中心の画像キャプションに対する新しいアプローチであり、画像内の顔属性の正確な描写を強調する。
本研究は,自動キャプションにおける倫理的考察の広範な議論に寄与する。
論文 参考訳(メタデータ) (2023-09-24T10:30:22Z) - Unleashing the Imagination of Text: A Novel Framework for Text-to-image
Person Retrieval via Exploring the Power of Words [0.951828574518325]
文中の単語のパワーを探索する新しい枠組みを提案する。
このフレームワークは、トレーニング済みのフルCLIPモデルをイメージとテキストのデュアルエンコーダとして採用している。
ハードサンプルの処理に適したクロスモーダル三重項損失を導入し,微妙な違いを識別するモデルの能力を高めた。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image
Generation [18.36261166580862]
テキスト・ツー・イメージ生成は、与えられたテキスト記述に従って、フォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。
既存の方法は、画像を表すために1つの文のみからテキスト情報を抽出する。
属性情報を補完する有効なテキスト表現法を提案する。
論文 参考訳(メタデータ) (2022-09-28T12:28:54Z) - Composition and Style Attributes Guided Image Aesthetic Assessment [66.60253358722538]
本稿では,画像の美学を自動予測する手法を提案する。
提案ネットワークには,意味的特徴抽出のための事前学習ネットワーク(Backbone)と,画像属性の予測にBackbone機能に依存するマルチレイヤパーセプトロン(MLP)ネットワーク(AttributeNet)が含まれる。
画像が与えられた場合、提案するマルチネットワークは、スタイルと構成属性、および美的スコア分布を予測できる。
論文 参考訳(メタデータ) (2021-11-08T17:16:38Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。