論文の概要: End-to-End Visual Editing with a Generatively Pre-Trained Artist
- arxiv url: http://arxiv.org/abs/2205.01668v1
- Date: Tue, 3 May 2022 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 14:28:23.572622
- Title: End-to-End Visual Editing with a Generatively Pre-Trained Artist
- Title(参考訳): 生成済みアーティストによるエンド・ツー・エンドのビジュアル編集
- Authors: Andrew Brown, Cheng-Yang Fu, Omkar Parkhi, Tamara L. Berg, Andrea
Vedaldi
- Abstract要約: 対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
- 参考スコア(独自算出の注目度): 78.5922562526874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the targeted image editing problem: blending a region in a source
image with a driver image that specifies the desired change. Differently from
prior works, we solve this problem by learning a conditional probability
distribution of the edits, end-to-end. Training such a model requires
addressing a fundamental technical challenge: the lack of example edits for
training. To this end, we propose a self-supervised approach that simulates
edits by augmenting off-the-shelf images in a target domain. The benefits are
remarkable: implemented as a state-of-the-art auto-regressive transformer, our
approach is simple, sidesteps difficulties with previous methods based on
GAN-like priors, obtains significantly better edits, and is efficient.
Furthermore, we show that different blending effects can be learned by an
intuitive control of the augmentation process, with no other changes required
to the model architecture. We demonstrate the superiority of this approach
across several datasets in extensive quantitative and qualitative experiments,
including human studies, significantly outperforming prior work.
- Abstract(参考訳): 対象画像編集の問題として、ソース画像内の領域と、所望の変化を示すドライバ画像とをブレンドする。
先行研究とは違って,編集の条件付き確率分布をエンドツーエンドで学習することで,この問題を解消する。
このようなモデルのトレーニングには、基本的な技術的課題に対処する必要がある。
そこで本研究では,対象領域の既定画像の付加により編集をシミュレートする自己教師付き手法を提案する。
最先端のオートリグレッシブトランスフォーマーとして実装されたこのアプローチは単純であり、ganライクなプリミティブに基づいた以前のメソッドの難しさを回避し、編集が大幅に改善され、効率的です。
さらに,モデルアーキテクチャに他の変更を加えることなく,拡張プロセスの直感的な制御によって異なるブレンディング効果を学習できることを示した。
我々は、人間の研究を含む広範囲な量的および質的な実験において、複数のデータセットにまたがるこのアプローチの優位性を実証した。
関連論文リスト
- PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の77~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - PIXELS: Progressive Image Xemplar-based Editing with Latent Surgery [10.594261300488546]
PIXELSと呼ばれる,市販拡散モデルを用いたプログレッシブな例駆動編集のための新しいフレームワークを提案する。
PIXELSは編集のきめ細かい制御を提供し、ピクセルや領域レベルでの調整を可能にする。
我々は,PIXELSが高品質な編集を効率よく行うことを実証し,定量化と人的評価に顕著な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2025-01-16T20:26:30Z) - Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。
これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文 参考訳(メタデータ) (2024-12-30T16:56:44Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - LIPE: Learning Personalized Identity Prior for Non-rigid Image Editing [20.861672583434718]
LIPEは、2段階のフレームワークであり、同じ主題の画像の限られたセットを利用して生成モデルをカスタマイズするように設計されている。
LIPEは、同じ対象の限られた画像集合を用いて生成モデルをカスタマイズする2段階のフレームワークであり、その後、非厳密な画像編集のために学習済みのモデルを用いる。
論文 参考訳(メタデータ) (2024-06-25T02:56:16Z) - Customize Your Own Paired Data via Few-shot Way [14.193031218059646]
いくつかの教師付き手法は膨大な量のペアトレーニングデータを必要とするため、使用量が大幅に制限される。
他の教師なしの手法は、大規模な事前訓練された事前訓練を最大限に活用するため、事前訓練されたドメインに制限され、アウト・オブ・ディストリビューションのケースでひどく振る舞う。
提案フレームワークでは,サンプル間の方向変換に基づく新たな数ショット学習機構を導入し,学習可能な空間を指数関数的に拡張する。
論文 参考訳(メタデータ) (2024-05-21T04:21:35Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。