Fugu-MT 論文翻訳(概要): SwipeGANSpace: Swipe-to-Compare Image Generation via Efficient Latent Space Exploration

論文の概要: SwipeGANSpace: Swipe-to-Compare Image Generation via Efficient Latent Space Exploration

arxiv url: http://arxiv.org/abs/2404.19693v1
Date: Tue, 30 Apr 2024 16:37:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-01 13:36:16.100308
Title: SwipeGANSpace: Swipe-to-Compare Image Generation via Efficient Latent Space Exploration
Title（参考訳）: SwipeGANSpace: 効率的な潜時空間探索によるSwipe-to-Compare画像生成
Authors: Yuto Nakashima, Mingzhe Yang, Yukino Baba,
Abstract要約: 本稿では,シンプルなユーザ・スワイプインタラクションを用いて,ユーザの好みの画像を生成する手法を提案する。スワイプ操作のみで潜伏空間を効果的に探索するために、StyleGANの潜伏空間に主成分分析を適用する。我々は、マルチアームのバンディットアルゴリズムを用いて、ユーザの好みに焦点をあてて、探索する次元を決定する。
参考スコア（独自算出の注目度）: 3.864321514889098
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating preferred images using generative adversarial networks (GANs) is challenging owing to the high-dimensional nature of latent space. In this study, we propose a novel approach that uses simple user-swipe interactions to generate preferred images for users. To effectively explore the latent space with only swipe interactions, we apply principal component analysis to the latent space of the StyleGAN, creating meaningful subspaces. We use a multi-armed bandit algorithm to decide the dimensions to explore, focusing on the preferences of the user. Experiments show that our method is more efficient in generating preferred images than the baseline methods. Furthermore, changes in preferred images during image generation or the display of entirely different image styles were observed to provide new inspirations, subsequently altering user preferences. This highlights the dynamic nature of user preferences, which our proposed approach recognizes and enhances.
Abstract（参考訳）: 生成逆数ネットワーク(GAN)を用いた優先画像の生成は、潜在空間の高次元の性質のため困難である。本研究では,シンプルなユーザ・スワイプインタラクションを用いて,ユーザの好みの画像を生成する手法を提案する。スワイプ操作のみで潜伏空間を効果的に探索するために、StyleGANの潜伏空間に主成分分析を適用し、意味のある部分空間を生成する。我々は、マルチアームのバンディットアルゴリズムを用いて、ユーザの好みに焦点をあてて、探索する次元を決定する。実験により,本手法はベースライン法よりも好ましい画像を生成するのに有効であることが示された。さらに、画像生成時の好みの画像の変化や、全く異なる画像スタイルの表示が観察され、新たなインスピレーションを与え、その後、ユーザの好みを変更した。このことは、提案手法が認識し、拡張するユーザ好みの動的な性質を強調している。

関連論文リスト

Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Preference Understanding [29.191627597682597]
本稿では,ユーザの好みに合わせた報酬モデルを活用し,フィードバックをループに組み込んだフレームワークを提案する。このアプローチは、特にマルチターン対話シナリオにおいて、ユーザの満足度において競合するモデルを一貫して上回ります。
論文参考訳（メタデータ） (2025-04-25T09:35:02Z)
DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。 DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文参考訳（メタデータ） (2025-04-24T08:10:10Z)
Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文参考訳（メタデータ） (2025-02-05T17:14:45Z)
AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文参考訳（メタデータ） (2024-10-16T15:59:02Z)
Generative Photomontage [40.49579203394384]
生成した画像の様々な部分から合成して、所望の画像を作成するためのフレームワークを提案する。ユーザはブラシストロークインタフェースを用いて,生成した結果から所望の部分を選択できる。提案手法が既存の画像ブレンディング法より優れていることを示す。
論文参考訳（メタデータ） (2024-08-13T17:59:51Z)
FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-08-09T02:16:37Z)
Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
Manipulating Embeddings of Stable Diffusion Prompts [22.10069408287608]
本稿では,プロンプトテキストの代わりにプロンプトの埋め込みを操作する新しい手法を提案し,解析する。提案手法は退屈度が低く,結果のイメージが好まれることが多い。
論文参考訳（メタデータ） (2023-08-23T10:59:41Z)
Controllable Person Image Synthesis with Spatially-Adaptive Warped Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文参考訳（メタデータ） (2021-05-31T07:07:44Z)
StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文参考訳（メタデータ） (2021-03-31T17:51:25Z)
StyleSpace Analysis: Disentangled Controls for StyleGAN Image Generation [45.20783737095007]
画像生成のための最先端アーキテクチャであるStyleGAN2の潜在スタイル空間を探索・解析する。 StyleSpace は、以前の研究によって探索された他の中間潜在空間よりもはるかに非絡み合っている。本研究は, 意味的に意味のある画像操作を, シンプルかつ直感的に行う方法である。
論文参考訳（メタデータ） (2020-11-25T15:00:33Z)
Style Intervention: How to Achieve Spatial Disentanglement with Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文参考訳（メタデータ） (2020-11-19T07:37:31Z)
Sequential Gallery for Interactive Visual Design Optimization [51.52002870143971]
本稿では,適切なパラメータ集合を効率的に見つけることができるループ最適化手法を提案する。また、アダプティブグリッドビューに配置された2次元部分空間にオプションを提供するギャラリーベースのインタフェースも提案する。合成関数を用いた実験により, 逐次平面探索は, ベースラインよりも少ないイテレーションで満足な解を見出すことができた。
論文参考訳（メタデータ） (2020-05-08T15:24:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。