論文の概要: Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos
- arxiv url: http://arxiv.org/abs/2403.13044v1
- Date: Tue, 19 Mar 2024 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 20:59:01.686851
- Title: Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos
- Title(参考訳): Magic Fixup:ダイナミックビデオによる写真編集の合理化
- Authors: Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi,
- Abstract要約: 本稿では,所定のレイアウトに従うフォトリアリスティックな出力を合成する生成モデルを提案する。
本手法は,元の画像から細かな詳細を転送し,その部分の同一性を保持する。
簡単なセグメンテーションと粗い2D操作により、ユーザの入力に忠実なフォトリアリスティックな編集を合成できることを示す。
- 参考スコア(独自算出の注目度): 32.74215702447293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a generative model that, given a coarsely edited image, synthesizes a photorealistic output that follows the prescribed layout. Our method transfers fine details from the original image and preserves the identity of its parts. Yet, it adapts it to the lighting and context defined by the new layout. Our key insight is that videos are a powerful source of supervision for this task: objects and camera motions provide many observations of how the world changes with viewpoint, lighting, and physical interactions. We construct an image dataset in which each sample is a pair of source and target frames extracted from the same video at randomly chosen time intervals. We warp the source frame toward the target using two motion models that mimic the expected test-time user edits. We supervise our model to translate the warped image into the ground truth, starting from a pretrained diffusion model. Our model design explicitly enables fine detail transfer from the source frame to the generated image, while closely following the user-specified layout. We show that by using simple segmentations and coarse 2D manipulations, we can synthesize a photorealistic edit faithful to the user's input while addressing second-order effects like harmonizing the lighting and physical interactions between edited objects.
- Abstract(参考訳): 本稿では、粗い編集画像が与えられた場合、所定のレイアウトに従うフォトリアリスティックな出力を合成する生成モデルを提案する。
本手法は,元の画像から細かな詳細を転送し,その部分の同一性を保持する。
しかし、新しいレイアウトで定義された照明とコンテキストに適応する。
物体やカメラの動きは、視点、照明、物理的相互作用によって世界がどのように変化するかを多くの観察する。
我々は,サンプルが同一ビデオからランダムに選択された時間間隔で抽出された,一対のソースとターゲットフレームである画像データセットを構築した。
期待されるテストタイムのユーザ編集を模倣する2つのモーションモデルを用いて、ソースフレームをターゲットに向けてワープする。
我々は、事前訓練された拡散モデルから、歪んだ画像を地上の真実に翻訳するモデルを監督する。
モデル設計では,ユーザが指定したレイアウトを忠実に追従しながら,ソースフレームから生成画像への細部移動を可能にする。
簡単なセグメンテーションと粗い2D操作により、編集対象間の光の調和や物理的相互作用といった2階効果に対処しながら、ユーザの入力に忠実なフォトリアリスティックな編集を合成できることが示される。
関連論文リスト
- HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - Slicedit: Zero-Shot Video Editing With Text-to-Image Diffusion Models Using Spatio-Temporal Slices [19.07572422897737]
Sliceditは、事前訓練されたT2I拡散モデルを用いて、空間スライスと時間スライスの両方を処理するテキストベースのビデオ編集方法である。
本手法は,対象のテキストに付着しながら,オリジナル映像の構造と動きを保持するビデオを生成する。
論文 参考訳(メタデータ) (2024-05-20T17:55:56Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - EdiBERT, a generative model for image editing [12.605607949417033]
EdiBERTは、ベクトル量子化オートエンコーダによって構築された離散潜在空間で訓練された双方向変換器である。
結果のモデルが,多種多様なタスクにおける最先端のパフォーマンスと一致することを示す。
論文 参考訳(メタデータ) (2021-11-30T10:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。