論文の概要: ByteEdit: Boost, Comply and Accelerate Generative Image Editing
- arxiv url: http://arxiv.org/abs/2404.04860v1
- Date: Sun, 7 Apr 2024 08:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:20:53.167300
- Title: ByteEdit: Boost, Comply and Accelerate Generative Image Editing
- Title(参考訳): ByteEdit: 生成イメージ編集の強化、補完、高速化
- Authors: Yuxi Ren, Jie Wu, Yanzuo Lu, Huafeng Kuang, Xin Xia, Xionghui Wang, Qianqian Wang, Yixing Zhu, Pan Xie, Shiyin Wang, Xuefeng Xiao, Yitong Wang, Min Zheng, Lean Fu,
- Abstract要約: ByteEditはフィードバック学習フレームワークで、画像編集タスクの強化、補完、高速化を念頭に設計されている。
ByteEditは、美学と画像テキストアライメントを強化するために、画像報酬モデルをシームレスに統合する。
ByteEdit-Outpaintingは,それぞれ388%,135%の品質と一貫性が著しく向上していることを示す。
- 参考スコア(独自算出の注目度): 33.83923461087189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in diffusion-based generative image editing have sparked a profound revolution, reshaping the landscape of image outpainting and inpainting tasks. Despite these strides, the field grapples with inherent challenges, including: i) inferior quality; ii) poor consistency; iii) insufficient instrcution adherence; iv) suboptimal generation efficiency. To address these obstacles, we present ByteEdit, an innovative feedback learning framework meticulously designed to Boost, Comply, and Accelerate Generative Image Editing tasks. ByteEdit seamlessly integrates image reward models dedicated to enhancing aesthetics and image-text alignment, while also introducing a dense, pixel-level reward model tailored to foster coherence in the output. Furthermore, we propose a pioneering adversarial and progressive feedback learning strategy to expedite the model's inference speed. Through extensive large-scale user evaluations, we demonstrate that ByteEdit surpasses leading generative image editing products, including Adobe, Canva, and MeiTu, in both generation quality and consistency. ByteEdit-Outpainting exhibits a remarkable enhancement of 388% and 135% in quality and consistency, respectively, when compared to the baseline model. Experiments also verfied that our acceleration models maintains excellent performance results in terms of quality and consistency.
- Abstract(参考訳): 拡散に基づく生成画像編集の最近の進歩は、画像のアウトペイントとインペイントタスクのランドスケープを再構築し、大きな革命を引き起こした。
これらの努力にもかかわらず、フィールドは次のような固有の課題に悩まされる。
i) 品質が劣るさま
二 整合性が悪いこと。
三 執行の順守が不十分であること。
四 準最適生成効率
これらの障害に対処するため,我々はByteEditを紹介した。ByteEditは,生成画像編集タスクの強化,補完,高速化を念頭に設計した,革新的なフィードバック学習フレームワークである。
ByteEditは、美学と画像テキストアライメントを強化するためのイメージ報酬モデルをシームレスに統合するとともに、出力のコヒーレンスを促進するために調整された、密度の高いピクセルレベルの報酬モデルも導入している。
さらに,モデルの推論速度を高速化するために,先駆的かつ先進的なフィードバック学習戦略を提案する。
大規模なユーザ評価を通じて、ByteEditは、Adobe、Canva、MeiTuといった主要な生成画像編集製品を、世代品質と一貫性の両方で上回っていることを実証した。
ByteEdit-Outpaintingは、ベースラインモデルと比較して、それぞれ388%と135%の品質と一貫性が著しく向上している。
実験では、我々の加速度モデルが品質と一貫性の点で優れたパフォーマンスを保っていることも検証された。
関連論文リスト
- FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process [120.91393949012014]
FreeEnhanceは、既製の画像拡散モデルを用いたコンテンツ一貫性のある画像強調のためのフレームワークである。
ノイズ発生段階では、FreeEnhanceは、元の画像の高頻度パターンを保存するために、より周波数の高い領域により軽いノイズを加えるように考案されている。
この段階では3つの目標特性を予測された雑音の規則化の制約として提示し,高精度で視覚的品質の高い画像の強調を行う。
論文 参考訳(メタデータ) (2024-09-11T17:58:50Z) - Efficient Degradation-aware Any Image Restoration [83.92870105933679]
我々は,低ランク体制下での学習者(DaLe)を用いた効率的なオールインワン画像復元システムである textitDaAIR を提案する。
モデルキャパシティを入力劣化に動的に割り当てることにより、総合学習と特定の学習を統合した効率的な復調器を実現する。
論文 参考訳(メタデータ) (2024-05-24T11:53:27Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - High-Fidelity Diffusion-based Image Editing [19.85446433564999]
拡散モデルの編集性能は、デノナイジングステップが増加しても、もはや満足できない傾向にある。
本稿では,マルコフ加群が残差特徴を持つ拡散モデル重みを変調するために組み込まれている革新的なフレームワークを提案する。
本稿では,編集過程における誤り伝播の最小化を目的とした新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-25T12:12:36Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - FastComposer: Tuning-Free Multi-Subject Image Generation with Localized
Attention [37.58569261714206]
拡散モデルは、特にパーソナライズされた画像に対する被写体駆動生成において、テキスト・画像生成時に優れている。
FastComposerは、微調整なしで、効率的でパーソナライズされたマルチオブジェクトのテキスト・ツー・イメージ生成を可能にする。
論文 参考訳(メタデータ) (2023-05-17T17:59:55Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via
Positive-Negative Prompt-Tuning [85.10894272034135]
大規模テキスト・画像生成モデルは,高解像度の高画質な高画質特徴画像の合成において,顕著な進歩を遂げている。
最近の試みでは、参照画像集合から事前学習された拡散モデルの概念を教えるための微調整戦略や急速調整戦略が採用されている。
本稿では,DreamArtistという,肯定的かつ効果的な学習手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T10:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。