論文の概要: DreamInsert: Zero-Shot Image-to-Video Object Insertion from A Single Image
- arxiv url: http://arxiv.org/abs/2503.10342v1
- Date: Thu, 13 Mar 2025 13:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:45.613195
- Title: DreamInsert: Zero-Shot Image-to-Video Object Insertion from A Single Image
- Title(参考訳): DreamInsert: ゼロショット画像からビデオ画像へのオブジェクト挿入
- Authors: Qi Zhao, Zhan Ma, Pan Zhou,
- Abstract要約: 本研究では,DreamInsertを提案する。
物体の軌道を考慮に入れることで、DreamInsertは見えない物体の動きを予測し、背景映像と調和して融合させ、望まれる映像をシームレスに生成することができる。
さらに重要なのは、DreamInsertはシンプルで効果的で、エンドツーエンドのトレーニングや、よく設計された画像とビデオのデータペアに微調整を加えることなく、ゼロショット挿入を実現していることだ。
- 参考スコア(独自算出の注目度): 77.80730683258658
- License:
- Abstract: Recent developments in generative diffusion models have turned many dreams into realities. For video object insertion, existing methods typically require additional information, such as a reference video or a 3D asset of the object, to generate the synthetic motion. However, inserting an object from a single reference photo into a target background video remains an uncharted area due to the lack of unseen motion information. We propose DreamInsert, which achieves Image-to-Video Object Insertion in a training-free manner for the first time. By incorporating the trajectory of the object into consideration, DreamInsert can predict the unseen object movement, fuse it harmoniously with the background video, and generate the desired video seamlessly. More significantly, DreamInsert is both simple and effective, achieving zero-shot insertion without end-to-end training or additional fine-tuning on well-designed image-video data pairs. We demonstrated the effectiveness of DreamInsert through a variety of experiments. Leveraging this capability, we present the first results for Image-to-Video object insertion in a training-free manner, paving exciting new directions for future content creation and synthesis. The code will be released soon.
- Abstract(参考訳): 生成拡散モデルの最近の発展は、多くの夢を現実に変えた。
ビデオオブジェクト挿入の場合、既存の方法は一般的に、合成動作を生成するために、参照ビデオやオブジェクトの3Dアセットなどの追加情報を必要とする。
しかし、単一の参照写真から対象の背景映像にオブジェクトを挿入することは、見えない動き情報がないため、未認識領域のままである。
本研究では,DreamInsertを提案する。
物体の軌道を考慮に入れることで、DreamInsertは見えない物体の動きを予測し、背景映像と調和して融合させ、望まれる映像をシームレスに生成することができる。
さらに重要なのは、DreamInsertはシンプルで効果的で、エンドツーエンドのトレーニングや、よく設計された画像とビデオのデータペアに微調整を加えることなく、ゼロショット挿入を実現していることだ。
種々の実験によりDreamInsertの有効性を実証した。
この機能を活用することで、画像から映像へのオブジェクト挿入をトレーニング不要にし、将来的なコンテンツ作成と合成のためのエキサイティングな新しい方向性を創出する。
コードはまもなくリリースされる。
関連論文リスト
- Articulate That Object Part (ATOP): 3D Part Articulation from Text and Motion Personalization [9.231848716070257]
ATOP(Articulate That Object Part)は、モーションパーソナライゼーションに基づく新しい手法である。
テキスト入力により、現代のビデオ拡散のパワーをタップして、可塑性な動作サンプルを生成することができる。
すると、入力された3Dオブジェクトは、生成した動画を、私たちが表現したいオブジェクトにパーソナライズするためのイメージプロンプトを提供する。
論文 参考訳(メタデータ) (2025-02-11T05:47:16Z) - VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control [66.66226299852559]
VideoAnydoorは、高忠実度ディテール保存と正確なモーションコントロールを備えたゼロショットビデオオブジェクト挿入フレームワークである。
詳細な外観を保ちながら、微粒な動き制御をサポートするため、我々は画素ワーパーを設計する。
論文 参考訳(メタデータ) (2025-01-02T18:59:54Z) - MVOC: a training-free multiple video object composition method with diffusion models [10.364986401722625]
拡散モデルに基づくMVOC法を提案する。
まず、各ビデオオブジェクトに対してDDIMインバージョンを行い、対応するノイズ特性を得る。
次に、画像編集手法で各オブジェクトを合成して編集し、合成ビデオの最初のフレームを得る。
論文 参考訳(メタデータ) (2024-06-22T12:18:46Z) - Place Anything into Any Video [42.44527154904871]
本稿では,Place-Anythingという新しい,効率的なシステムを紹介する。
対象のオブジェクトや要素の画像やテキスト記述のみに基づいて、任意のオブジェクトを任意のビデオに挿入することを容易にする。
このシステムは3つのモジュールで構成されている。3D生成、ビデオ再構成、および3Dターゲット挿入である。
論文 参考訳(メタデータ) (2024-02-22T06:19:22Z) - DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。