論文の概要: UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency
- arxiv url: http://arxiv.org/abs/2412.15216v1
- Date: Thu, 19 Dec 2024 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:01.041541
- Title: UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency
- Title(参考訳): UIP2P: サイクル編集一貫性による教師なしインストラクションベースの画像編集
- Authors: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari,
- Abstract要約: 本研究では,教師なしの教師なし画像編集モデルを提案する。
CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
- 参考スコア(独自算出の注目度): 69.33072075580483
- License:
- Abstract: We propose an unsupervised model for instruction-based image editing that eliminates the need for ground-truth edited images during training. Existing supervised methods depend on datasets containing triplets of input image, edited image, and edit instruction. These are generated by either existing editing methods or human-annotations, which introduce biases and limit their generalization ability. Our method addresses these challenges by introducing a novel editing mechanism called Cycle Edit Consistency (CEC), which applies forward and backward edits in one training step and enforces consistency in image and attention spaces. This allows us to bypass the need for ground-truth edited images and unlock training for the first time on datasets comprising either real image-caption pairs or image-caption-edit triplets. We empirically show that our unsupervised technique performs better across a broader range of edits with high fidelity and precision. By eliminating the need for pre-existing datasets of triplets, reducing biases associated with supervised methods, and proposing CEC, our work represents a significant advancement in unblocking scaling of instruction-based image editing.
- Abstract(参考訳): 本研究では,教師なしの教師なし画像編集モデルを提案する。
既存の教師付き手法は、入力画像のトリプレット、編集画像、編集命令を含むデータセットに依存している。
これらは、バイアスを導入し、一般化能力を制限する、既存の編集方法または人間のアノテーションによって生成される。
本稿では,CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
これにより、地上で編集された画像の必要性を回避し、実際の画像キャプチャペアまたは画像キャプチャのトリプルからなるデータセットで、初めてトレーニングをアンロックすることが可能になります。
我々は、我々の教師なしの手法が、高い忠実度と精度で幅広い編集範囲でより優れた性能を発揮することを実証的に示す。
既存の三重項のデータセットの必要性を排除し,教師付き手法によるバイアスを低減し,CECを提案することにより,命令ベースの画像編集の非ブロック化における大きな進展を示す。
関連論文リスト
- AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - ControlEdit: A MultiModal Local Clothing Image Editing Method [3.6604114810930946]
マルチモーダル・衣料品画像編集(マルチモーダル・衣料品画像編集、英: Multimodal clothing image editing)とは、テキスト記述や視覚画像を制御条件として用いた衣服画像の精密な調整と修正をいう。
衣料品画像のマルチモーダルな局所的塗り絵に衣料品画像の編集を転送する新しい画像編集方法である制御編集を提案する。
論文 参考訳(メタデータ) (2024-09-23T05:34:59Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - BARET : Balanced Attention based Real image Editing driven by
Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。
I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文 参考訳(メタデータ) (2023-12-09T07:18:23Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Learning to Follow Object-Centric Image Editing Instructions Faithfully [26.69032113274608]
自然言語命令による画像編集に焦点をあてる現在のアプローチは、自動生成されたペアデータに依存している。
我々は、ペアデータの品質を大幅に改善し、監視信号を強化する。
我々のモデルは、最先端のベースラインよりもきめ細かいオブジェクト中心の編集を行うことができる。
論文 参考訳(メタデータ) (2023-10-29T20:39:11Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。