論文の概要: Combing Text-based and Drag-based Editing for Precise and Flexible Image Editing
- arxiv url: http://arxiv.org/abs/2410.03097v1
- Date: Fri, 4 Oct 2024 02:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:56:19.545465
- Title: Combing Text-based and Drag-based Editing for Precise and Flexible Image Editing
- Title(参考訳): テキストベースとドラッグベースを組み合わせた高精度・フレキシブルな画像編集
- Authors: Ziqi Jiang, Zhen Wang, Long Chen,
- Abstract要約: テキストとドラッグ信号を組み合わせた新しい画像編集手法である textbfCLIPDrag を提案する。
CLIPDragは、既存の単一のドラッグベースのメソッドやテキストベースのメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 9.398831289389749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise and flexible image editing remains a fundamental challenge in computer vision. Based on the modified areas, most editing methods can be divided into two main types: global editing and local editing. In this paper, we choose the two most common editing approaches (ie text-based editing and drag-based editing) and analyze their drawbacks. Specifically, text-based methods often fail to describe the desired modifications precisely, while drag-based methods suffer from ambiguity. To address these issues, we proposed \textbf{CLIPDrag}, a novel image editing method that is the first to combine text and drag signals for precise and ambiguity-free manipulations on diffusion models. To fully leverage these two signals, we treat text signals as global guidance and drag points as local information. Then we introduce a novel global-local motion supervision method to integrate text signals into existing drag-based methods by adapting a pre-trained language-vision model like CLIP. Furthermore, we also address the problem of slow convergence in CLIPDrag by presenting a fast point-tracking method that enforces drag points moving toward correct directions. Extensive experiments demonstrate that CLIPDrag outperforms existing single drag-based methods or text-based methods.
- Abstract(参考訳): 正確で柔軟な画像編集は、コンピュータビジョンの基本的な課題である。
修正された領域に基づいて、ほとんどの編集方法は、大域的な編集と局所的な編集の2つのタイプに分けられる。
本稿では,テキストベースの編集とドラッグベースの編集という2つの一般的な編集手法を選択し,その欠点を解析する。
具体的には、テキストベースのメソッドは望まれる修正を正確に記述できないことが多いが、ドラッグベースのメソッドは曖昧さに悩まされている。
これらの問題に対処するため, 拡散モデル上でテキストとドラッグ信号を組み合わせて, 正確かつ曖昧な操作を行う新しい画像編集法である \textbf{CLIPDrag} を提案した。
これら2つの信号を完全に活用するために、テキスト信号をグローバルガイダンスとして扱い、ドラッグポイントをローカル情報として扱う。
そこで本研究では,CLIPのような学習済み言語ビジョンモデルを適用することで,テキスト信号を既存のドラッグベース手法に統合する,新たなグローバルな動作監視手法を提案する。
さらに,CLIPDragにおける緩やかな収束の問題にも対処し,ドラッグポイントを正しい方向に移動させる高速な点追跡手法を提案する。
大規模な実験では、CLIPDragは既存の単一のドラッグベースのメソッドやテキストベースのメソッドよりも優れています。
関連論文リスト
- TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - DragText: Rethinking Text Embedding in Point-based Image Editing [3.1923251959845214]
拡散モデルにおける入力画像のプログレッシブな編集において,テキスト埋め込みは一定であることを示す。
そこで我々はDragTextを提案する。DragTextはドラッグ処理と同時にテキスト埋め込みを最適化し、修正された画像埋め込みと組み合わせる。
論文 参考訳(メタデータ) (2024-07-25T07:57:55Z) - GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。
提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文 参考訳(メタデータ) (2024-04-18T23:25:27Z) - TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts [119.84478647745658]
TIPEditorは、テキストと画像プロンプトの両方を受け入れる3Dシーン編集フレームワークであり、編集領域を指定するための3Dバウンディングボックスである。
TIP-Editorはテキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行うことを示した。
論文 参考訳(メタデータ) (2024-01-26T12:57:05Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video
editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。
提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。
既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-09T17:59:53Z) - Zero-shot Text-driven Physically Interpretable Face Editing [29.32334174584623]
本稿では、任意のテキストプロンプトに基づく顔編集のための、新しく物理的に解釈可能な手法を提案する。
本手法は, 同一性が高く, 画像品質が高い物理的に解釈可能な顔編集結果を生成することができる。
論文 参考訳(メタデータ) (2023-08-11T07:20:24Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Shape-aware Text-driven Layered Video Editing [39.56765973770167]
形状変化に対処する形状認識型テキスト駆動ビデオ編集手法を提案する。
まず、入力と編集されたすべてのフレーム間の変形場を伝搬する。
次に、事前学習したテキスト条件拡散モデルを用いて、形状歪みを補正し、目に見えない領域を完成させる。
論文 参考訳(メタデータ) (2023-01-30T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。