Fugu-MT 論文翻訳(概要): FastDrag: Manipulate Anything in One Step

論文の概要: FastDrag: Manipulate Anything in One Step

arxiv url: http://arxiv.org/abs/2405.15769v3
Date: Tue, 29 Oct 2024 14:09:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.764613
Title: FastDrag: Manipulate Anything in One Step
Title（参考訳）: FastDrag: 任意のものをひとつのステップで操作する
Authors: Xuanjia Zhao, Jian Guan, Congyi Fan, Dongli Xu, Youtian Lin, Haiwei Pan, Pengming Feng,
Abstract要約: 本稿では,FastDragというワンステップのドラッグベースの画像編集手法を導入し,編集プロセスの高速化を図る。この革新は1段階の遅延セマンティック最適化を実現し、編集速度を大幅に向上させる。私たちのFastDragはDragBenchデータセットで検証されています。
参考スコア（独自算出の注目度）: 20.494157877241665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Drag-based image editing using generative models provides precise control over image contents, enabling users to manipulate anything in an image with a few clicks. However, prevailing methods typically adopt $n$-step iterations for latent semantic optimization to achieve drag-based image editing, which is time-consuming and limits practical applications. In this paper, we introduce a novel one-step drag-based image editing method, i.e., FastDrag, to accelerate the editing process. Central to our approach is a latent warpage function (LWF), which simulates the behavior of a stretched material to adjust the location of individual pixels within the latent space. This innovation achieves one-step latent semantic optimization and hence significantly promotes editing speeds. Meanwhile, null regions emerging after applying LWF are addressed by our proposed bilateral nearest neighbor interpolation (BNNI) strategy. This strategy interpolates these regions using similar features from neighboring areas, thus enhancing semantic integrity. Additionally, a consistency-preserving strategy is introduced to maintain the consistency between the edited and original images by adopting semantic information from the original image, saved as key and value pairs in self-attention module during diffusion inversion, to guide the diffusion sampling. Our FastDrag is validated on the DragBench dataset, demonstrating substantial improvements in processing time over existing methods, while achieving enhanced editing performance. Project page: https://fastdrag-site.github.io/ .
Abstract（参考訳）: 生成モデルを用いたドラッグベースの画像編集は、画像内容の正確な制御を可能にし、ユーザーは数クリックで画像中のあらゆるものを操作できる。しかし、一般的な手法では、遅延セマンティック最適化に$n$-stepのイテレーションを採用してドラッグベースの画像編集を実現するのが一般的である。本稿では,FastDragというワンステップのドラッグベースの画像編集手法を導入し,編集プロセスの高速化を図る。我々のアプローチの中心は潜時ウォーページ関数(LWF)であり、この関数は伸長された材料の挙動をシミュレートし、潜時空間内の個々のピクセルの位置を調節する。この革新は1段階の遅延セマンティック最適化を実現し、編集速度を大幅に向上させる。一方, LWF適用後に出現するヌル領域は, 近距離補間(BNNI)戦略によって対処される。この戦略は、近隣地域の類似した特徴を用いてこれらの領域を補間し、意味的整合性を高める。また、拡散インバージョン中に自己保持モジュールのキーと値ペアとして保存された原画像からのセマンティック情報を採用し、拡散サンプリングを誘導することにより、編集画像と原画像との整合性を維持するための整合性保存戦略を導入する。我々のFastDragはDragBenchデータセットで検証されており、既存のメソッドよりも処理時間を大幅に改善し、編集性能の向上を実現しています。プロジェクトページ: https://fastdrag-site.github.io/

関連論文リスト

AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文参考訳（メタデータ） (2025-06-16T09:42:38Z)
Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文参考訳（メタデータ） (2025-03-31T09:46:56Z)
AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文参考訳（メタデータ） (2024-10-16T15:59:02Z)
InstantDrag: Improving Interactivity in Drag-based Image Editing [23.004027029130953]
ドラッグベースの画像編集は、その対話性と精度で最近人気を集めている。 InstantDragは、対話性と速度を向上する最適化不要なパイプラインである。 InstantDragがマスクやテキストのプロンプトなしで高速でリアルな編集を行う能力を示す。
論文参考訳（メタデータ） (2024-09-13T14:19:27Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
LightningDrag: Lightning Fast and Accurate Drag-based Image Editing Emerging from Videos [101.59710862476041]
1秒で高速なドラッグベースの画像編集を可能にするLightningDragを提案する。従来の方法とは異なり、条件生成タスクとしてドラッグベースの編集を再定義する。提案手法は, 精度と整合性の観点から, 従来手法よりも大幅に優れる。
論文参考訳（メタデータ） (2024-05-22T15:14:00Z)
Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文参考訳（メタデータ） (2024-03-14T15:07:36Z)
Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文参考訳（メタデータ） (2023-12-17T21:49:59Z)
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文参考訳（メタデータ） (2023-07-05T16:43:56Z)
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2023-06-26T06:04:09Z)
LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文参考訳（メタデータ） (2023-05-30T01:26:41Z)
Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。提案手法は再構築段階と編集段階から構成される。 ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文参考訳（メタデータ） (2023-05-08T03:34:33Z)
FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文参考訳（メタデータ） (2022-03-09T13:34:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。