論文の概要: SwipeGANSpace: Swipe-to-Compare Image Generation via Efficient Latent Space Exploration
- arxiv url: http://arxiv.org/abs/2404.19693v1
- Date: Tue, 30 Apr 2024 16:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:36:16.100308
- Title: SwipeGANSpace: Swipe-to-Compare Image Generation via Efficient Latent Space Exploration
- Title(参考訳): SwipeGANSpace: 効率的な潜時空間探索によるSwipe-to-Compare画像生成
- Authors: Yuto Nakashima, Mingzhe Yang, Yukino Baba,
- Abstract要約: 本稿では,シンプルなユーザ・スワイプインタラクションを用いて,ユーザの好みの画像を生成する手法を提案する。
スワイプ操作のみで潜伏空間を効果的に探索するために、StyleGANの潜伏空間に主成分分析を適用する。
我々は、マルチアームのバンディットアルゴリズムを用いて、ユーザの好みに焦点をあてて、探索する次元を決定する。
- 参考スコア(独自算出の注目度): 3.864321514889098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating preferred images using generative adversarial networks (GANs) is challenging owing to the high-dimensional nature of latent space. In this study, we propose a novel approach that uses simple user-swipe interactions to generate preferred images for users. To effectively explore the latent space with only swipe interactions, we apply principal component analysis to the latent space of the StyleGAN, creating meaningful subspaces. We use a multi-armed bandit algorithm to decide the dimensions to explore, focusing on the preferences of the user. Experiments show that our method is more efficient in generating preferred images than the baseline methods. Furthermore, changes in preferred images during image generation or the display of entirely different image styles were observed to provide new inspirations, subsequently altering user preferences. This highlights the dynamic nature of user preferences, which our proposed approach recognizes and enhances.
- Abstract(参考訳): 生成逆数ネットワーク(GAN)を用いた優先画像の生成は、潜在空間の高次元の性質のため困難である。
本研究では,シンプルなユーザ・スワイプインタラクションを用いて,ユーザの好みの画像を生成する手法を提案する。
スワイプ操作のみで潜伏空間を効果的に探索するために、StyleGANの潜伏空間に主成分分析を適用し、意味のある部分空間を生成する。
我々は、マルチアームのバンディットアルゴリズムを用いて、ユーザの好みに焦点をあてて、探索する次元を決定する。
実験により,本手法はベースライン法よりも好ましい画像を生成するのに有効であることが示された。
さらに、画像生成時の好みの画像の変化や、全く異なる画像スタイルの表示が観察され、新たなインスピレーションを与え、その後、ユーザの好みを変更した。
このことは、提案手法が認識し、拡張するユーザ好みの動的な性質を強調している。
関連論文リスト
- Learning User Embeddings from Human Gaze for Personalised Saliency Prediction [12.361829928359136]
本稿では,自然画像のペアと対応する相性マップからユーザ埋め込みを抽出する新しい手法を提案する。
提案手法のコアとなるのは,異なるユーザのイメージと個人満足度マップのペアを対比することにより,ユーザの埋め込みを学習する,シームズ畳み込みニューラルエンコーダである。
論文 参考訳(メタデータ) (2024-03-20T14:58:40Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Manipulating Embeddings of Stable Diffusion Prompts [22.10069408287608]
本稿では,プロンプトテキストの代わりにプロンプトの埋め込みを操作する新しい手法を提案し,解析する。
提案手法は退屈度が低く,結果のイメージが好まれることが多い。
論文 参考訳(メタデータ) (2023-08-23T10:59:41Z) - FaIRCoP: Facial Image Retrieval using Contrastive Personalization [43.293482565385055]
属性から顔画像を取得することは、顔認識や被疑者識別などの様々なシステムにおいて重要な役割を果たす。
既存の方法は、ユーザのメンタルイメージの特定の特徴を、提案した画像と比較することで実現している。
そこで本研究では,ユーザのフィードバックを用いて,対象画像と類似あるいは異な画像とラベル付けする手法を提案する。
論文 参考訳(メタデータ) (2022-05-28T09:52:09Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - StyleSpace Analysis: Disentangled Controls for StyleGAN Image Generation [45.20783737095007]
画像生成のための最先端アーキテクチャであるStyleGAN2の潜在スタイル空間を探索・解析する。
StyleSpace は、以前の研究によって探索された他の中間潜在空間よりもはるかに非絡み合っている。
本研究は, 意味的に意味のある画像操作を, シンプルかつ直感的に行う方法である。
論文 参考訳(メタデータ) (2020-11-25T15:00:33Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2020-11-19T07:37:31Z) - Sequential Gallery for Interactive Visual Design Optimization [51.52002870143971]
本稿では,適切なパラメータ集合を効率的に見つけることができるループ最適化手法を提案する。
また、アダプティブグリッドビューに配置された2次元部分空間にオプションを提供するギャラリーベースのインタフェースも提案する。
合成関数を用いた実験により, 逐次平面探索は, ベースラインよりも少ないイテレーションで満足な解を見出すことができた。
論文 参考訳(メタデータ) (2020-05-08T15:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。