Fugu-MT 論文翻訳(概要): SINE: SINgle Image Editing with Text-to-Image Diffusion Models

論文の概要: SINE: SINgle Image Editing with Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2212.04489v2
Date: Sun, 30 Mar 2025 23:04:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:56.421183
Title: SINE: SINgle Image Editing with Text-to-Image Diffusion Models
Title（参考訳）: SINE:テキストと画像の拡散モデルを用いたSINgle画像編集
Authors: Zhixing Zhang, Ligong Han, Arnab Ghosh, Dimitris Metaxas, Jian Ren,
Abstract要約: 本研究の目的は、単一画像編集の問題に対処することである。分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
参考スコア（独自算出の注目度）: 15.08927069142136
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent works on diffusion models have demonstrated a strong capability for conditioning image generation, e.g., text-guided image synthesis. Such success inspires many efforts trying to use large-scale pre-trained diffusion models for tackling a challenging problem--real image editing. Works conducted in this area learn a unique textual token corresponding to several images containing the same object. However, under many circumstances, only one image is available, such as the painting of the Girl with a Pearl Earring. Using existing works on fine-tuning the pre-trained diffusion models with a single image causes severe overfitting issues. The information leakage from the pre-trained diffusion models makes editing can not keep the same content as the given image while creating new features depicted by the language guidance. This work aims to address the problem of single-image editing. We propose a novel model-based guidance built upon the classifier-free guidance so that the knowledge from the model trained on a single image can be distilled into the pre-trained diffusion model, enabling content creation even with one given image. Additionally, we propose a patch-based fine-tuning that can effectively help the model generate images of arbitrary resolution. We provide extensive experiments to validate the design choices of our approach and show promising editing capabilities, including changing style, content addition, and object manipulation. The code is available for research purposes at https://github.com/zhang-zx/SINE.git .
Abstract（参考訳）: 拡散モデルに関する最近の研究は、例えばテキスト誘導画像合成など、画像生成を条件付ける強力な能力を示している。このような成功は、大規模な事前訓練された拡散モデルを使用して、困難な問題に対処しようとする多くの努力を刺激している。この領域で実施された作業は、同じオブジェクトを含む複数の画像に対応するユニークなテキストトークンを学習する。しかし、多くの状況下では、パールイヤリングを持つ少女の絵など、たった1面の絵しか残っていない。事前学習した拡散モデルを1つの画像で微調整する既存の作業を使用することで、過度な過度なオーバーフィッティング問題を引き起こす。事前訓練された拡散モデルからの情報漏洩により、編集は与えられた画像と同じ内容を保持することができず、言語指導によって表現された新機能を作成することができる。本研究の目的は、単一画像編集の問題に対処することである。 1つの画像で訓練されたモデルからの知識を事前学習された拡散モデルに蒸留し、与えられた1つの画像であってもコンテンツ作成を可能にする。さらに,任意の解像度の画像を効果的に生成できるパッチベースの微調整を提案する。提案手法の設計選択を検証し,スタイルの変更,コンテンツの追加,オブジェクト操作など,有望な編集能力を示すため,広範な実験を行った。コードは https://github.com/zhang-zx/SINE.git で研究目的で公開されている。

関連論文リスト

Instruction-based Image Editing with Planning, Reasoning, and Generation [52.0364486403062]
以前の作業では、大きな言語モデル、オブジェクトセグメンテーションモデル、このタスクのためのモデル編集の連鎖を利用していた。我々は、命令ベースの画像編集モデルにインテリジェントな能力を提供する新しいマルチモーダリティモデルにより、理解と生成をブリッジすることを目指している。本手法は,複雑な実世界の画像に対して,競合する編集能力を有する。
論文参考訳（メタデータ） (2026-02-26T04:56:02Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文参考訳（メタデータ） (2023-12-21T12:11:00Z)
Unified Concept Editing in Diffusion Models [53.30378722979958]
一つのアプローチで全ての問題に取り組む方法を提案する。本手法,Unified Concept Editing (UCE) は,クローズドフォーム・ソリューションを用いて学習せずにモデルを編集する。テキスト・ツー・イメージ・プロジェクションを編集することで、拡張性のある同時デバイアス、スタイル消去、コンテンツモデレーションを実証する。
論文参考訳（メタデータ） (2023-08-25T17:59:59Z)
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文参考訳（メタデータ） (2023-07-05T16:43:56Z)
DiffUTE: Universal Text Editing Diffusion Model [32.384236053455]
汎用的な自己教師型テキスト編集拡散モデル(DiffUTE)を提案する。それは、その現実的な外観を維持しながら、ソースイメージ内の単語を別の単語に置き換えたり、修正したりすることを目的としている。提案手法は印象的な性能を実現し,高忠実度画像の編集を可能にする。
論文参考訳（メタデータ） (2023-05-18T09:06:01Z)
ReGeneration Learning of Diffusion Models with Rich Prompts for Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文参考訳（メタデータ） (2023-05-08T12:08:12Z)
Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文参考訳（メタデータ） (2023-03-22T16:36:10Z)
Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文参考訳（メタデータ） (2023-02-06T18:59:51Z)
Uncovering the Disentanglement Capability in Text-to-Image Diffusion Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文参考訳（メタデータ） (2022-12-16T19:58:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。