論文の概要: End-to-End Visual Editing with a Generatively Pre-Trained Artist
- arxiv url: http://arxiv.org/abs/2205.01668v1
- Date: Tue, 3 May 2022 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 14:28:23.572622
- Title: End-to-End Visual Editing with a Generatively Pre-Trained Artist
- Title(参考訳): 生成済みアーティストによるエンド・ツー・エンドのビジュアル編集
- Authors: Andrew Brown, Cheng-Yang Fu, Omkar Parkhi, Tamara L. Berg, Andrea
Vedaldi
- Abstract要約: 対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
- 参考スコア(独自算出の注目度): 78.5922562526874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the targeted image editing problem: blending a region in a source
image with a driver image that specifies the desired change. Differently from
prior works, we solve this problem by learning a conditional probability
distribution of the edits, end-to-end. Training such a model requires
addressing a fundamental technical challenge: the lack of example edits for
training. To this end, we propose a self-supervised approach that simulates
edits by augmenting off-the-shelf images in a target domain. The benefits are
remarkable: implemented as a state-of-the-art auto-regressive transformer, our
approach is simple, sidesteps difficulties with previous methods based on
GAN-like priors, obtains significantly better edits, and is efficient.
Furthermore, we show that different blending effects can be learned by an
intuitive control of the augmentation process, with no other changes required
to the model architecture. We demonstrate the superiority of this approach
across several datasets in extensive quantitative and qualitative experiments,
including human studies, significantly outperforming prior work.
- Abstract(参考訳): 対象画像編集の問題として、ソース画像内の領域と、所望の変化を示すドライバ画像とをブレンドする。
先行研究とは違って,編集の条件付き確率分布をエンドツーエンドで学習することで,この問題を解消する。
このようなモデルのトレーニングには、基本的な技術的課題に対処する必要がある。
そこで本研究では,対象領域の既定画像の付加により編集をシミュレートする自己教師付き手法を提案する。
最先端のオートリグレッシブトランスフォーマーとして実装されたこのアプローチは単純であり、ganライクなプリミティブに基づいた以前のメソッドの難しさを回避し、編集が大幅に改善され、効率的です。
さらに,モデルアーキテクチャに他の変更を加えることなく,拡張プロセスの直感的な制御によって異なるブレンディング効果を学習できることを示した。
我々は、人間の研究を含む広範囲な量的および質的な実験において、複数のデータセットにまたがるこのアプローチの優位性を実証した。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - LIPE: Learning Personalized Identity Prior for Non-rigid Image Editing [20.861672583434718]
LIPEは、2段階のフレームワークであり、同じ主題の画像の限られたセットを利用して生成モデルをカスタマイズするように設計されている。
LIPEは、同じ対象の限られた画像集合を用いて生成モデルをカスタマイズする2段階のフレームワークであり、その後、非厳密な画像編集のために学習済みのモデルを用いる。
論文 参考訳(メタデータ) (2024-06-25T02:56:16Z) - Customize Your Own Paired Data via Few-shot Way [14.193031218059646]
いくつかの教師付き手法は膨大な量のペアトレーニングデータを必要とするため、使用量が大幅に制限される。
他の教師なしの手法は、大規模な事前訓練された事前訓練を最大限に活用するため、事前訓練されたドメインに制限され、アウト・オブ・ディストリビューションのケースでひどく振る舞う。
提案フレームワークでは,サンプル間の方向変換に基づく新たな数ショット学習機構を導入し,学習可能な空間を指数関数的に拡張する。
論文 参考訳(メタデータ) (2024-05-21T04:21:35Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - Paint by Example: Exemplar-based Image Editing with Diffusion Models [35.84464684227222]
本稿では,より精密な制御のための画像編集について検討する。
我々は、この目標を達成するために、自己指導型トレーニングを活用して、ソースイメージとインスペクタをアンタングルし、再編成する。
提案手法は印象的な性能を実現し,高忠実度で画像の編集を制御できることを実証する。
論文 参考訳(メタデータ) (2022-11-23T18:59:52Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。