論文の概要: GANravel: User-Driven Direction Disentanglement in Generative
Adversarial Networks
- arxiv url: http://arxiv.org/abs/2302.00079v1
- Date: Tue, 31 Jan 2023 20:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 18:28:17.392470
- Title: GANravel: User-Driven Direction Disentanglement in Generative
Adversarial Networks
- Title(参考訳): ganravel: 生成型adversarial networkにおけるユーザ主導の方向ディスタングル
- Authors: Noyan Evirgen, Xiang 'Anthony' Chen
- Abstract要約: GAN(Generative Adversarial Network)には、画像編集、ドメイン翻訳、データ計算の欠如、クリエイティブな作業のサポートなど、多くのアプリケーション領域がある。
GANravelは、既存のGANアーキテクチャを補完し、編集方向を反復的に改善する、ユーザ主導の方向転換ツールである。
参加者16名を対象にした2つのユーザスタディにおいて, GANravel のユーザは方向を乱すことができ, 最先端の方向発見ベースラインよりも高い性能を示した。
- 参考スコア(独自算出の注目度): 8.715123728970646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative adversarial networks (GANs) have many application areas including
image editing, domain translation, missing data imputation, and support for
creative work. However, GANs are considered 'black boxes'. Specifically, the
end-users have little control over how to improve editing directions through
disentanglement. Prior work focused on new GAN architectures to disentangle
editing directions. Alternatively, we propose GANravel a user-driven direction
disentanglement tool that complements the existing GAN architectures and allows
users to improve editing directions iteratively. In two user studies with 16
participants each, GANravel users were able to disentangle directions and
outperformed the state-of-the-art direction discovery baselines in
disentanglement performance. In the second user study, GANravel was used in a
creative task of creating dog memes and was able to create high-quality edited
images and GIFs.
- Abstract(参考訳): generative adversarial networks (gans) には、画像編集、ドメイン翻訳、データインプテーションの欠如、クリエイティブワークのサポートなど、多くのアプリケーション領域がある。
ただし、ガンは「ブラックボックス」と見なされる。
特に、エンドユーザは、絡み合いによって編集方向を改善する方法のコントロールがほとんどない。
以前の作業では、編集方向をアンタングルする新しいGANアーキテクチャに焦点を当てていた。
あるいは,既存のGANアーキテクチャを補完し,ユーザが反復的に編集方向を改善できる,ユーザ主導の方向転換ツールであるGANravelを提案する。
参加者16名を対象にした2つのユーザスタディにおいて, GANravel のユーザは方向を乱し, 最先端の方向発見ベースラインよりも高い性能を示した。
第2のユーザ調査では、ganravelは犬のミームを作成する創造的なタスクに使われ、高品質の編集画像やgifを作成することができた。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - $S^2$-Flow: Joint Semantic and Style Editing of Facial Images [16.47093005910139]
GAN(Generative Adversarial Network)は、画像編集への応用に関する調査をモチベーションとしている。
GANは特定の編集を行うために提供されるコントロールに制限されることが多い。
本稿では,GAN$text'$s潜在空間を意味空間とスタイル空間に分解する手法を提案する。
論文 参考訳(メタデータ) (2022-11-22T12:00:02Z) - GANzilla: User-Driven Direction Discovery in Generative Adversarial
Networks [8.715123728970646]
Generative Adversarial Network (GAN) は、データ前処理、画像編集、クリエイティビティサポートなど、多くのアプリケーション領域で広く採用されている。
GANの「ブラックボックス」の性質は、非専門家ユーザーがモデルが生成するデータを制御するのを防ぐ。
本稿では,ユーザ主導のツールであるGANzillaを提案する。
論文 参考訳(メタデータ) (2022-07-17T23:55:40Z) - Fantastic Style Channels and Where to Find Them: A Submodular Framework
for Discovering Diverse Directions in GANs [0.0]
StyleGAN2は、リッチでゆがみのある潜在空間のために、様々な画像生成および操作タスクを可能にした。
そこで我々は,StyleGAN2の潜在空間において,最も代表的で多様な方向のサブセットを見つけるための,新しいサブモジュラー・フレームワークを設計する。
本フレームワークは,クラスタの概念を用いて多様性を促進し,グリーディ最適化方式で効率的に解ける。
論文 参考訳(メタデータ) (2022-03-16T10:35:41Z) - CLIP2StyleGAN: Unsupervised Extraction of StyleGAN Edit Directions [65.00528970576401]
StyleGANは、合成画像と実画像の両方において、前例のないセマンティック編集機能を実現している。
興味あるCLIP方向を見つけるためのブロックと、CLIP潜在空間における任意の方向を示すブロックを提案する。
提案手法の有効性を評価し,不整合ラベル付きStyleGAN編集方向の抽出が実際に可能であることを示す。
論文 参考訳(メタデータ) (2021-12-09T21:26:03Z) - Navigating the GAN Parameter Space for Semantic Image Editing [35.622710993417456]
Generative Adversarial Networks (GAN) はビジュアル編集に必須のツールである。
本稿では,StyleGAN2のような最先端のモデルで実現可能な視覚効果の範囲を大きく広げる。
論文 参考訳(メタデータ) (2020-11-27T15:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。