論文の概要: Motion Guidance: Diffusion-Based Image Editing with Differentiable
Motion Estimators
- arxiv url: http://arxiv.org/abs/2401.18085v1
- Date: Wed, 31 Jan 2024 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:31:13.653967
- Title: Motion Guidance: Diffusion-Based Image Editing with Differentiable
Motion Estimators
- Title(参考訳): 運動誘導:異なる運動推定器を用いた拡散に基づく画像編集
- Authors: Daniel Geng, Andrew Owens
- Abstract要約: モーションガイダンス(Motion Guide)は、画像の各ピクセルがどこに移動すべきかを示す、密度の高い複雑なモーションフィールドを指定できる技術である。
本手法は複雑な動きに作用し、実画像や生成された画像の高品質な編集を可能にする。
- 参考スコア(独自算出の注目度): 19.853978560075305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are capable of generating impressive images conditioned on
text descriptions, and extensions of these models allow users to edit images at
a relatively coarse scale. However, the ability to precisely edit the layout,
position, pose, and shape of objects in images with diffusion models is still
difficult. To this end, we propose motion guidance, a zero-shot technique that
allows a user to specify dense, complex motion fields that indicate where each
pixel in an image should move. Motion guidance works by steering the diffusion
sampling process with the gradients through an off-the-shelf optical flow
network. Specifically, we design a guidance loss that encourages the sample to
have the desired motion, as estimated by a flow network, while also being
visually similar to the source image. By simultaneously sampling from a
diffusion model and guiding the sample to have low guidance loss, we can obtain
a motion-edited image. We demonstrate that our technique works on complex
motions and produces high quality edits of real and generated images.
- Abstract(参考訳): 拡散モデルはテキスト記述に基づく印象的な画像を生成することができ、これらのモデルの拡張によりユーザーは比較的粗いスケールで画像を編集できる。
しかし、拡散モデルを持つ画像中の物体のレイアウト、位置、ポーズ、形状を正確に編集する能力は依然として困難である。
そこで本研究では,画像中の各画素がどこに移動すべきかを示す,高密度で複雑な動き場をユーザが指定できるゼロショット方式であるモーションガイダンスを提案する。
動作誘導は、市販の光フローネットワークを介して拡散サンプリングプロセスを勾配で操ることで機能する。
具体的には、フローネットワークによって推定されるように、サンプルが所望の動きを持つように促し、また、ソースイメージと視覚的に類似する誘導損失をデザインする。
拡散モデルから同時にサンプリングし、ガイダンス損失の少ないサンプルを誘導することにより、モーション編集画像を得ることができる。
本手法は複雑な動作で動作し,実画像および生成画像の高品質な編集を実現する。
関連論文リスト
- Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - Bidirectionally Deformable Motion Modulation For Video-based Human Pose
Transfer [19.5025303182983]
ビデオベースのヒューマンポーズ転送は、ビデオからビデオへの生成タスクであり、一連のターゲットの人間のポーズに基づいて、プレーンソースのヒューマンイメージを識別する。
本稿では,不連続な特徴アライメントとスタイル転送を同時に行うために,適応重み変調を用いた幾何学的カーネルオフセットを用いた新しい変形可能運動変調(DMM)を提案する。
論文 参考訳(メタデータ) (2023-07-15T09:24:45Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based
Image Editing [98.30393804479152]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Cross-domain Compositing with Pretrained Diffusion Models [34.98199766006208]
我々は,背景シーンから抽出した文脈情報で注入対象を注入する局所的反復的精錬方式を採用する。
本手法では,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-02-20T18:54:04Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Controllable Animation of Fluid Elements in Still Images [9.194534529360691]
静止画像中の流体要素のアニメーションをインタラクティブに制御し,シネマグラフを生成する手法を提案する。
画像中の流体要素の運動を定数2次元光フローマップで表現する。
我々は、改良された光フローマップを用いて、将来的なフレームを自動回帰的に生成する新しいUNetアーキテクチャを考案した。
論文 参考訳(メタデータ) (2021-12-06T13:53:08Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。