Fugu-MT 論文翻訳(概要): UniTune: Text-Driven Image Editing by Fine Tuning an Image Generation Model on a Single Image

論文の概要: UniTune: Text-Driven Image Editing by Fine Tuning an Image Generation Model on a Single Image

arxiv url: http://arxiv.org/abs/2210.09477v2
Date: Wed, 19 Oct 2022 17:35:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 13:53:11.740633
Title: UniTune: Text-Driven Image Editing by Fine Tuning an Image Generation Model on a Single Image
Title（参考訳）: UniTune:単一画像上の画像生成モデルを微調整したテキスト駆動画像編集
Authors: Dani Valevski, Matan Kalman, Yossi Matias, Yaniv Leviathan
Abstract要約: We present UniTune, a simple and novel method for general text-driven image editing。 UniTuneは任意の画像とテキストの編集記述を入力として取得し、入力画像に対して高い意味と視覚的忠実性を維持しながら編集を実行する。
参考スコア（独自算出の注目度）: 3.5150821092068383
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present UniTune, a simple and novel method for general text-driven image editing. UniTune gets as input an arbitrary image and a textual edit description, and carries out the edit while maintaining high semantic and visual fidelity to the input image. UniTune uses text, an intuitive interface for art-direction, and does not require additional inputs, like masks or sketches. At the core of our method is the observation that with the right choice of parameters, we can fine-tune a large text-to-image diffusion model on a single image, encouraging the model to maintain fidelity to the input image while still allowing expressive manipulations. We used Imagen as our text-to-image model, but we expect UniTune to work with other large-scale models as well. We test our method in a range of different use cases, and demonstrate its wide applicability.
Abstract（参考訳）: 本稿では,汎用テキスト編集のための簡易かつ新規な方法であるunituneを提案する。 unituneは任意の画像とテキスト編集記述を入力として取得し、入力画像に対する高い意味と視覚的忠実性を維持しながら編集を実行する。 UniTuneは、アート指向のための直感的なインターフェースであるテキストを使用し、マスクやスケッチなどの追加入力を必要としない。提案手法の核心は,パラメータの選択が適切であれば,単一の画像上で大きなテキストから画像への拡散モデルを微調整できるという観察である。私たちはImagenをテキスト・画像モデルとして使用しましたが、UniTuneは他の大規模モデルとも連携することを期待しています。本手法をさまざまなユースケースでテストし,その適用性を示す。

関連論文リスト

Towards Efficient Exemplar Based Image Editing with Multimodal VLMs [11.830273909934688]
本研究では,テキストから画像への拡散モデルとマルチモーダルVLMを利用して,既存のペアからコンテンツイメージへ編集を転送する作業に取り組む。エンドツーエンドのパイプラインは最適化不要ですが、実験では、複数のタイプの編集においてベースラインを4倍高速で上回っています。
論文参考訳（メタデータ） (2025-06-25T06:20:36Z)
Editable Image Elements for Controllable Synthesis [79.58148778509769]
拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案する。オブジェクトのリサイズ,再配置,ドラッグング,デオクルージョン,除去,変動,画像合成など,画像編集作業における表現の有効性を示す。
論文参考訳（メタデータ） (2024-04-24T17:59:11Z)
Edit One for All: Interactive Batch Image Editing [44.50631647670942]
本稿では,StyleGANを媒体として,インタラクティブなバッチ画像編集手法を提案する。サンプル画像中のユーザが指定した編集(例えば、顔の前面に表示させる)が与えられた場合、我々の方法は自動的に他のテスト画像に編集を転送することができる。実験により,本手法を用いた編集は,既存の単一画像編集法と類似した視覚的品質を有することが示された。
論文参考訳（メタデータ） (2024-01-18T18:58:44Z)
Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文参考訳（メタデータ） (2023-07-26T17:50:10Z)
Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。提案手法は再構築段階と編集段階から構成される。 ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文参考訳（メタデータ） (2023-05-08T03:34:33Z)
MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing [54.712205852602736]
MasaCtrlは、一貫した画像生成と複雑な非剛性画像編集を同時に行うためのチューニング不要な手法である。具体的には、既存の拡散モデルにおける自己アテンションを相互の自己アテンションに変換することで、ソース画像から相関したローカル内容やテクスチャをクエリして一貫性を実現する。大規模な実験により、提案したMashoCtrlは、一貫性のある画像生成と複雑な非厳密な実画像編集の両方において、印象的な結果が得られることが示された。
論文参考訳（メタデータ） (2023-04-17T17:42:19Z)
Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文参考訳（メタデータ） (2023-02-06T18:59:51Z)
Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文参考訳（メタデータ） (2022-12-13T21:25:11Z)
DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文参考訳（メタデータ） (2022-10-20T17:16:37Z)
EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。 EditGANは前例のない細部と自由度で画像を操作可能であることを示す。また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文参考訳（メタデータ） (2021-11-04T22:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。