論文の概要: Text2LIVE: Text-Driven Layered Image and Video Editing
- arxiv url: http://arxiv.org/abs/2204.02491v1
- Date: Tue, 5 Apr 2022 21:17:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 02:36:45.500933
- Title: Text2LIVE: Text-Driven Layered Image and Video Editing
- Title(参考訳): Text2LIVE: テキスト駆動のレイヤーイメージとビデオ編集
- Authors: Omer Bar-Tal, Dolev Ofri-Amar, Rafail Fridman, Yoni Kasten, Tali Dekel
- Abstract要約: 自然画像やビデオにおけるゼロショット・テキスト駆動の外観操作法を提案する。
入力画像またはビデオとターゲットテキストプロンプトが与えられた場合、我々の目標は既存のオブジェクトの外観を編集することである。
さまざまなオブジェクトやシーンにまたがる高解像度の自然画像やビデオに対して,局所的でセマンティックな編集を実演する。
- 参考スコア(独自算出の注目度): 13.134513605107808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for zero-shot, text-driven appearance manipulation in
natural images and videos. Given an input image or video and a target text
prompt, our goal is to edit the appearance of existing objects (e.g., object's
texture) or augment the scene with visual effects (e.g., smoke, fire) in a
semantically meaningful manner. We train a generator using an internal dataset
of training examples, extracted from a single input (image or video and target
text prompt), while leveraging an external pre-trained CLIP model to establish
our losses. Rather than directly generating the edited output, our key idea is
to generate an edit layer (color+opacity) that is composited over the original
input. This allows us to constrain the generation process and maintain high
fidelity to the original input via novel text-driven losses that are applied
directly to the edit layer. Our method neither relies on a pre-trained
generator nor requires user-provided edit masks. We demonstrate localized,
semantic edits on high-resolution natural images and videos across a variety of
objects and scenes.
- Abstract(参考訳): 自然画像やビデオにおけるゼロショット・テキスト駆動の外観操作法を提案する。
入力画像やビデオ、対象テキストプロンプトが与えられた場合、既存のオブジェクト(例えば、オブジェクトのテクスチャ)の外観を編集したり、視覚的な効果(例えば煙や火)を意味的に意味のある方法で増やすことが目的です。
単一入力(画像またはビデオおよびターゲットテキストプロンプト)から抽出したトレーニングサンプルの内部データセットを使用してジェネレータをトレーニングし、外部トレーニング済みのCLIPモデルを利用して損失を確定する。
編集された出力を直接生成するのではなく、編集層(カラー+オパシティ)を生成し、元の入力に合成する。
これにより、編集層に直接適用される新しいテキスト駆動の損失を通じて、生成過程を制約し、元の入力に対する高い忠実性を維持することができる。
本手法は,事前学習したジェネレータや編集マスクを必要としない。
様々なオブジェクトやシーンにまたがる高解像度自然画像や動画に対して,局所的で意味的な編集を行う。
関連論文リスト
- TexSliders: Diffusion-Based Texture Editing in CLIP Space [17.449209402077276]
既存の編集手法を分析し,テクスチャに直接適用できないことを示す。
拡散生成を条件にCLIP画像埋め込みを操作する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T17:57:21Z) - MagicStick: Controllable Video Editing via Control Handle
Transformations [109.26314726025097]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Shape-aware Text-driven Layered Video Editing [39.56765973770167]
形状変化に対処する形状認識型テキスト駆動ビデオ編集手法を提案する。
まず、入力と編集されたすべてのフレーム間の変形場を伝搬する。
次に、事前学習したテキスト条件拡散モデルを用いて、形状歪みを補正し、目に見えない領域を完成させる。
論文 参考訳(メタデータ) (2023-01-30T18:41:58Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。