論文の概要: Motion Guidance: Diffusion-Based Image Editing with Differentiable
Motion Estimators
- arxiv url: http://arxiv.org/abs/2401.18085v1
- Date: Wed, 31 Jan 2024 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:31:13.653967
- Title: Motion Guidance: Diffusion-Based Image Editing with Differentiable
Motion Estimators
- Title(参考訳): 運動誘導:異なる運動推定器を用いた拡散に基づく画像編集
- Authors: Daniel Geng, Andrew Owens
- Abstract要約: モーションガイダンス(Motion Guide)は、画像の各ピクセルがどこに移動すべきかを示す、密度の高い複雑なモーションフィールドを指定できる技術である。
本手法は複雑な動きに作用し、実画像や生成された画像の高品質な編集を可能にする。
- 参考スコア(独自算出の注目度): 19.853978560075305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are capable of generating impressive images conditioned on
text descriptions, and extensions of these models allow users to edit images at
a relatively coarse scale. However, the ability to precisely edit the layout,
position, pose, and shape of objects in images with diffusion models is still
difficult. To this end, we propose motion guidance, a zero-shot technique that
allows a user to specify dense, complex motion fields that indicate where each
pixel in an image should move. Motion guidance works by steering the diffusion
sampling process with the gradients through an off-the-shelf optical flow
network. Specifically, we design a guidance loss that encourages the sample to
have the desired motion, as estimated by a flow network, while also being
visually similar to the source image. By simultaneously sampling from a
diffusion model and guiding the sample to have low guidance loss, we can obtain
a motion-edited image. We demonstrate that our technique works on complex
motions and produces high quality edits of real and generated images.
- Abstract(参考訳): 拡散モデルはテキスト記述に基づく印象的な画像を生成することができ、これらのモデルの拡張によりユーザーは比較的粗いスケールで画像を編集できる。
しかし、拡散モデルを持つ画像中の物体のレイアウト、位置、ポーズ、形状を正確に編集する能力は依然として困難である。
そこで本研究では,画像中の各画素がどこに移動すべきかを示す,高密度で複雑な動き場をユーザが指定できるゼロショット方式であるモーションガイダンスを提案する。
動作誘導は、市販の光フローネットワークを介して拡散サンプリングプロセスを勾配で操ることで機能する。
具体的には、フローネットワークによって推定されるように、サンプルが所望の動きを持つように促し、また、ソースイメージと視覚的に類似する誘導損失をデザインする。
拡散モデルから同時にサンプリングし、ガイダンス損失の少ないサンプルを誘導することにより、モーション編集画像を得ることができる。
本手法は複雑な動作で動作し,実画像および生成画像の高品質な編集を実現する。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。
入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。
提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文 参考訳(メタデータ) (2024-10-16T15:59:02Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Move Anything with Layered Scene Diffusion [77.45870343845492]
拡散サンプリング過程におけるシーン表現を最適化するために,SceneDiffusionを提案する。
我々の重要な洞察は、異なる空間配置のシーンレンダリングを共同でデノベートすることで、空間的ゆがみを得ることができることである。
生成したシーンは、移動、再サイズ、クローニング、レイヤーワイドな外観編集操作を含む、幅広い空間編集操作をサポートする。
論文 参考訳(メタデータ) (2024-04-10T17:28:16Z) - Bidirectionally Deformable Motion Modulation For Video-based Human Pose
Transfer [19.5025303182983]
ビデオベースのヒューマンポーズ転送は、ビデオからビデオへの生成タスクであり、一連のターゲットの人間のポーズに基づいて、プレーンソースのヒューマンイメージを識別する。
本稿では,不連続な特徴アライメントとスタイル転送を同時に行うために,適応重み変調を用いた幾何学的カーネルオフセットを用いた新しい変形可能運動変調(DMM)を提案する。
論文 参考訳(メタデータ) (2023-07-15T09:24:45Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。