論文の概要: KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image
Action Editing
- arxiv url: http://arxiv.org/abs/2309.16608v1
- Date: Thu, 28 Sep 2023 17:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 13:19:02.300620
- Title: KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image
Action Editing
- Title(参考訳): KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image Action Editing
- Authors: Jiancheng Huang, Yifan Liu, Jin Qin, Shifeng Chen
- Abstract要約: 良好な再構成性能と動作編集が可能なKVインバージョンを提案する。
本手法では,安定拡散モデル自体のトレーニングを必要とせず,大規模なデータセットをスキャンして時間を要するトレーニングを行う必要もない。
- 参考スコア(独自算出の注目度): 15.831539388569473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-conditioned image editing is a recently emerged and highly practical
task, and its potential is immeasurable. However, most of the concurrent
methods are unable to perform action editing, i.e. they can not produce results
that conform to the action semantics of the editing prompt and preserve the
content of the original image. To solve the problem of action editing, we
propose KV Inversion, a method that can achieve satisfactory reconstruction
performance and action editing, which can solve two major problems: 1) the
edited result can match the corresponding action, and 2) the edited object can
retain the texture and identity of the original real image. In addition, our
method does not require training the Stable Diffusion model itself, nor does it
require scanning a large-scale dataset to perform time-consuming training.
- Abstract(参考訳): テキスト条件付き画像編集は最近登場し、非常に実用的な作業であり、その可能性は計り知れない。
しかし、同時処理のメソッドのほとんどは、アクション編集を行うことができない。つまり、編集プロンプトのアクションセマンティクスに準拠した結果を生成し、元の画像の内容を保存することはできない。
動作編集の問題を解決するために, 良好な再構成性能と動作編集を実現する手法であるKV Inversionを提案する。
1) 編集結果が対応する動作と一致し、かつ
2) 編集対象物は元の実画像のテクスチャとアイデンティティを保持することができる。
さらに,本手法では,安定拡散モデル自体のトレーニングを必要とせず,大規模なデータセットをスキャンして時間を要するトレーニングを行う必要もない。
関連論文リスト
- ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image
Editing [0.0]
本稿では,3つのサンプリング手法からなるFECを提案し,それぞれが異なる編集タイプと設定のために設計されている。
FECは、画像編集タスクにおいて、2つの重要な目標を達成している。
いずれのサンプリング手法も拡散モデルの微調整や大規模データセットの時間的訓練は不要である。
論文 参考訳(メタデータ) (2023-09-26T13:43:06Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。