論文の概要: SwipeGANSpace: Swipe-to-Compare Image Generation via Efficient Latent Space Exploration
- arxiv url: http://arxiv.org/abs/2404.19693v1
- Date: Tue, 30 Apr 2024 16:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:36:16.100308
- Title: SwipeGANSpace: Swipe-to-Compare Image Generation via Efficient Latent Space Exploration
- Title(参考訳): SwipeGANSpace: 効率的な潜時空間探索によるSwipe-to-Compare画像生成
- Authors: Yuto Nakashima, Mingzhe Yang, Yukino Baba,
- Abstract要約: 本稿では,シンプルなユーザ・スワイプインタラクションを用いて,ユーザの好みの画像を生成する手法を提案する。
スワイプ操作のみで潜伏空間を効果的に探索するために、StyleGANの潜伏空間に主成分分析を適用する。
我々は、マルチアームのバンディットアルゴリズムを用いて、ユーザの好みに焦点をあてて、探索する次元を決定する。
- 参考スコア(独自算出の注目度): 3.864321514889098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating preferred images using generative adversarial networks (GANs) is challenging owing to the high-dimensional nature of latent space. In this study, we propose a novel approach that uses simple user-swipe interactions to generate preferred images for users. To effectively explore the latent space with only swipe interactions, we apply principal component analysis to the latent space of the StyleGAN, creating meaningful subspaces. We use a multi-armed bandit algorithm to decide the dimensions to explore, focusing on the preferences of the user. Experiments show that our method is more efficient in generating preferred images than the baseline methods. Furthermore, changes in preferred images during image generation or the display of entirely different image styles were observed to provide new inspirations, subsequently altering user preferences. This highlights the dynamic nature of user preferences, which our proposed approach recognizes and enhances.
- Abstract(参考訳): 生成逆数ネットワーク(GAN)を用いた優先画像の生成は、潜在空間の高次元の性質のため困難である。
本研究では,シンプルなユーザ・スワイプインタラクションを用いて,ユーザの好みの画像を生成する手法を提案する。
スワイプ操作のみで潜伏空間を効果的に探索するために、StyleGANの潜伏空間に主成分分析を適用し、意味のある部分空間を生成する。
我々は、マルチアームのバンディットアルゴリズムを用いて、ユーザの好みに焦点をあてて、探索する次元を決定する。
実験により,本手法はベースライン法よりも好ましい画像を生成するのに有効であることが示された。
さらに、画像生成時の好みの画像の変化や、全く異なる画像スタイルの表示が観察され、新たなインスピレーションを与え、その後、ユーザの好みを変更した。
このことは、提案手法が認識し、拡張するユーザ好みの動的な性質を強調している。
関連論文リスト
- AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。
入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。
提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文 参考訳(メタデータ) (2024-10-16T15:59:02Z) - Generative Photomontage [40.49579203394384]
生成した画像の様々な部分から合成して、所望の画像を作成するためのフレームワークを提案する。
ユーザはブラシストロークインタフェースを用いて,生成した結果から所望の部分を選択できる。
提案手法が既存の画像ブレンディング法より優れていることを示す。
論文 参考訳(メタデータ) (2024-08-13T17:59:51Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Manipulating Embeddings of Stable Diffusion Prompts [22.10069408287608]
本稿では,プロンプトテキストの代わりにプロンプトの埋め込みを操作する新しい手法を提案し,解析する。
提案手法は退屈度が低く,結果のイメージが好まれることが多い。
論文 参考訳(メタデータ) (2023-08-23T10:59:41Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - StyleSpace Analysis: Disentangled Controls for StyleGAN Image Generation [45.20783737095007]
画像生成のための最先端アーキテクチャであるStyleGAN2の潜在スタイル空間を探索・解析する。
StyleSpace は、以前の研究によって探索された他の中間潜在空間よりもはるかに非絡み合っている。
本研究は, 意味的に意味のある画像操作を, シンプルかつ直感的に行う方法である。
論文 参考訳(メタデータ) (2020-11-25T15:00:33Z) - Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2020-11-19T07:37:31Z) - Sequential Gallery for Interactive Visual Design Optimization [51.52002870143971]
本稿では,適切なパラメータ集合を効率的に見つけることができるループ最適化手法を提案する。
また、アダプティブグリッドビューに配置された2次元部分空間にオプションを提供するギャラリーベースのインタフェースも提案する。
合成関数を用いた実験により, 逐次平面探索は, ベースラインよりも少ないイテレーションで満足な解を見出すことができた。
論文 参考訳(メタデータ) (2020-05-08T15:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。