論文の概要: The Curious Case of End Token: A Zero-Shot Disentangled Image Editing using CLIP
- arxiv url: http://arxiv.org/abs/2406.00457v1
- Date: Sat, 1 Jun 2024 14:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 06:55:04.503054
- Title: The Curious Case of End Token: A Zero-Shot Disentangled Image Editing using CLIP
- Title(参考訳): 終末トークンの異常例:CLIPを用いたゼロショットアンタングル画像編集
- Authors: Hidir Yesiltepe, Yusuf Dalva, Pinar Yanardag,
- Abstract要約: ここでは,CLIPはゼロショット方式でアンタングル編集を行うことができることを示す。
この知見は、画像やビデオ編集など、様々なタスクにこの手法を適用する機会を開く可能性がある。
- 参考スコア(独自算出の注目度): 4.710921988115686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have become prominent in creating high-quality images. However, unlike GAN models celebrated for their ability to edit images in a disentangled manner, diffusion-based text-to-image models struggle to achieve the same level of precise attribute manipulation without compromising image coherence. In this paper, CLIP which is often used in popular text-to-image diffusion models such as Stable Diffusion is capable of performing disentangled editing in a zero-shot manner. Through both qualitative and quantitative comparisons with state-of-the-art editing methods, we show that our approach yields competitive results. This insight may open opportunities for applying this method to various tasks, including image and video editing, providing a lightweight and efficient approach for disentangled editing.
- Abstract(参考訳): 拡散モデルは高品質な画像を作成する際に顕著になっている。
しかし、不整合な方法で画像を編集できるGANモデルとは異なり、拡散ベースのテキスト・ツー・イメージモデルは、画像のコヒーレンスを損なうことなく、同じレベルの正確な属性操作を実現するのに苦労する。
本稿では,Stable Diffusionなどの一般的なテキスト・画像拡散モデルでよく使用されるCLIPを用いて,ゼロショット方式でアンタングル編集を行う。
最先端の編集手法と定性的・定量的な比較を行った結果,本手法が競合する結果をもたらすことがわかった。
この知見は、画像編集やビデオ編集など様々なタスクにこの手法を適用する機会を開き、アンタングル編集の軽量で効率的なアプローチを提供する。
関連論文リスト
- Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。
これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文 参考訳(メタデータ) (2024-12-30T16:56:44Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - SINE: SINgle Image Editing with Text-to-Image Diffusion Models [10.67527134198167]
本研究の目的は、単一画像編集の問題に対処することである。
分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。
スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
論文 参考訳(メタデータ) (2022-12-08T18:57:13Z) - Paint by Example: Exemplar-based Image Editing with Diffusion Models [35.84464684227222]
本稿では,より精密な制御のための画像編集について検討する。
我々は、この目標を達成するために、自己指導型トレーニングを活用して、ソースイメージとインスペクタをアンタングルし、再編成する。
提案手法は印象的な性能を実現し,高忠実度で画像の編集を制御できることを実証する。
論文 参考訳(メタデータ) (2022-11-23T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。