Fugu-MT 論文翻訳(概要): SeedEdit: Align Image Re-Generation to Image Editing

論文の概要: SeedEdit: Align Image Re-Generation to Image Editing

arxiv url: http://arxiv.org/abs/2411.06686v1
Date: Mon, 11 Nov 2024 03:06:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.334681
Title: SeedEdit: Align Image Re-Generation to Image Editing
Title（参考訳）: SeedEdit:イメージ編集のためのイメージ再生成
Authors: Yichun Shi, Peng Wang, Weilin Huang,
Abstract要約: 本稿では,任意のテキストプロンプトで任意の画像を修正可能な拡散モデルであるSeedEditを紹介する。このような2つの方向の間に多様なペアを生成する弱いジェネレータ(text-to-image model)から始める。 SeedEditは、以前の画像編集方法よりも多種多様な安定した編集機能を実現することができる。
参考スコア（独自算出の注目度）: 23.461716630027436
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce SeedEdit, a diffusion model that is able to revise a given image with any text prompt. In our perspective, the key to such a task is to obtain an optimal balance between maintaining the original image, i.e. image reconstruction, and generating a new image, i.e. image re-generation. To this end, we start from a weak generator (text-to-image model) that creates diverse pairs between such two directions and gradually align it into a strong image editor that well balances between the two tasks. SeedEdit can achieve more diverse and stable editing capability over prior image editing methods, enabling sequential revision over images generated by diffusion models.
Abstract（参考訳）: 本稿では,任意のテキストプロンプトで任意の画像を修正可能な拡散モデルであるSeedEditを紹介する。我々の視点では、そのような課題の鍵は、原画像、すなわち、画像再構成の維持と、新たな画像、すなわち、画像再生の間の最適なバランスを得ることである。この目的のために、我々は、これらの2つの方向の間に多様なペアを生成する弱いジェネレータ(text-to-image model)から始める。 SeedEditは、以前の画像編集方法よりも多種多様な安定した編集機能を実現し、拡散モデルによって生成された画像の逐次的な修正を可能にする。

関連論文リスト

EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文参考訳（メタデータ） (2025-10-23T05:06:24Z)
Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-23T20:34:43Z)
Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文参考訳（メタデータ） (2024-11-25T16:41:45Z)
ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2024-11-06T15:19:24Z)
Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文参考訳（メタデータ） (2024-05-24T07:53:59Z)
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文参考訳（メタデータ） (2024-02-04T18:50:29Z)
Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文参考訳（メタデータ） (2023-11-28T15:31:11Z)
ReGeneration Learning of Diffusion Models with Rich Prompts for Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文参考訳（メタデータ） (2023-05-08T12:08:12Z)
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文参考訳（メタデータ） (2023-03-28T00:16:45Z)
Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文参考訳（メタデータ） (2023-02-06T18:59:51Z)
Eliminating Contextual Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文参考訳（メタデータ） (2023-02-05T14:30:22Z)
DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文参考訳（メタデータ） (2022-10-20T17:16:37Z)
UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a Single Image [2.999198565272416]
我々は,画像生成モデルを単一画像上で微調整することで,画像編集モデルに変換できることを観察する。我々は、任意の画像とテキストによる編集記述を入力として取得し、入力画像への忠実度を維持しながら編集を行う、新しい画像編集方法UniTuneを提案する。従来不可能であった視覚的変化を必要とするものを含む,驚くほど広い範囲の表現的編集操作を行うことが可能であることを実証した。
論文参考訳（メタデータ） (2022-10-17T23:46:05Z)
EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。 EditGANは前例のない細部と自由度で画像を操作可能であることを示す。また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文参考訳（メタデータ） (2021-11-04T22:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。