論文の概要: InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.10958v1
- Date: Mon, 15 Jul 2024 17:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 13:51:02.242562
- Title: InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models
- Title(参考訳): InVi:オフザシェルフ拡散モデルを用いたビデオのオブジェクト挿入
- Authors: Nirat Saini, Navaneeth Bodla, Ashish Shrivastava, Avinash Ravichandran, Xiao Zhang, Abhinav Shrivastava, Bharat Singh,
- Abstract要約: InViは、ビデオ内のオブジェクトを挿入または置換するためのアプローチで、オフザシェルフ、テキスト・ツー・イメージの潜伏拡散モデルを用いて導入する。
InViは、フレーム間の一貫したブレンディングとコヒーレンスで現実的なオブジェクト挿入を実現し、既存のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 46.587906540660455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce InVi, an approach for inserting or replacing objects within videos (referred to as inpainting) using off-the-shelf, text-to-image latent diffusion models. InVi targets controlled manipulation of objects and blending them seamlessly into a background video unlike existing video editing methods that focus on comprehensive re-styling or entire scene alterations. To achieve this goal, we tackle two key challenges. Firstly, for high quality control and blending, we employ a two-step process involving inpainting and matching. This process begins with inserting the object into a single frame using a ControlNet-based inpainting diffusion model, and then generating subsequent frames conditioned on features from an inpainted frame as an anchor to minimize the domain gap between the background and the object. Secondly, to ensure temporal coherence, we replace the diffusion model's self-attention layers with extended-attention layers. The anchor frame features serve as the keys and values for these layers, enhancing consistency across frames. Our approach removes the need for video-specific fine-tuning, presenting an efficient and adaptable solution. Experimental results demonstrate that InVi achieves realistic object insertion with consistent blending and coherence across frames, outperforming existing methods.
- Abstract(参考訳): InViは、ビデオ内のオブジェクトを挿入または置換するためのアプローチで、オフザシェルフ、テキスト・ツー・イメージの潜伏拡散モデルを用いている(インペイントと呼ぶ)。
InViのターゲットは、オブジェクトの操作をコントロールし、それらをバックグラウンドビデオにシームレスにブレンドする。
この目標を達成するために、私たちは2つの重要な課題に取り組みます。
まず、高品質な制御とブレンディングのために、塗装とマッチングを含む2段階のプロセスを採用する。
このプロセスは、ControlNetベースのインペイント拡散モデルを使用してオブジェクトを単一のフレームに挿入し、その後、インペイントされたフレームからアンカーとして特徴に条件付けられた後続のフレームを生成し、背景とオブジェクト間のドメインギャップを最小限にする。
次に,時間的コヒーレンスを確保するため,拡散モデルの自己アテンション層を拡張アテンション層に置き換える。
アンカーフレーム機能はこれらのレイヤのキーと値として機能し、フレーム間の一貫性を向上する。
提案手法は,ビデオ特有の微調整の必要性を排除し,効率よく適応可能なソリューションを提供する。
実験により、InViはフレーム間の一貫したブレンディングとコヒーレンスで現実的なオブジェクト挿入を実現し、既存の手法より優れていることが示された。
関連論文リスト
- HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Drag-A-Video: Non-rigid Video Editing with Point-based Interaction [63.78538355189017]
そこで我々はDrag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散に基づく新しい手法を提案する。
本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。
映像の内容を正確に修正するために,ビデオの機能を更新するために,新しい映像レベルのモーションインスペクタを用いる。
論文 参考訳(メタデータ) (2023-12-05T18:05:59Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。