論文の概要: Place Anything into Any Video
- arxiv url: http://arxiv.org/abs/2402.14316v1
- Date: Thu, 22 Feb 2024 06:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:15:44.700794
- Title: Place Anything into Any Video
- Title(参考訳): どんなものでもビデオに収める
- Authors: Ziling Liu, Jinyu Yang, Mingqi Gao, and Feng Zheng
- Abstract要約: 本稿では,Place-Anythingという新しい,効率的なシステムを紹介する。
対象のオブジェクトや要素の画像やテキスト記述のみに基づいて、任意のオブジェクトを任意のビデオに挿入することを容易にする。
このシステムは3つのモジュールで構成されている。3D生成、ビデオ再構成、および3Dターゲット挿入である。
- 参考スコア(独自算出の注目度): 42.44527154904871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable video editing has demonstrated remarkable potential across
diverse applications, particularly in scenarios where capturing or re-capturing
real-world videos is either impractical or costly. This paper introduces a
novel and efficient system named Place-Anything, which facilitates the
insertion of any object into any video solely based on a picture or text
description of the target object or element. The system comprises three
modules: 3D generation, video reconstruction, and 3D target insertion. This
integrated approach offers an efficient and effective solution for producing
and editing high-quality videos by seamlessly inserting realistic objects.
Through a user study, we demonstrate that our system can effortlessly place any
object into any video using just a photograph of the object. Our demo video can
be found at https://youtu.be/afXqgLLRnTE. Please also visit our project page
https://place-anything.github.io to get access.
- Abstract(参考訳): コントロール可能なビデオ編集は、さまざまなアプリケーション、特に実世界のビデオのキャプチャーや再キャプチャが非現実的あるいはコストのかかるシナリオにおいて、顕著な可能性を示している。
本稿では,対象のオブジェクトや要素の画像やテキスト記述のみに基づいて,任意のオブジェクトを任意のビデオに挿入しやすくする,Place-Anythingという斬新で効率的なシステムを提案する。
このシステムは3つのモジュールで構成されている。3D生成、ビデオ再構成、および3Dターゲット挿入である。
この統合アプローチは、リアルなオブジェクトをシームレスに挿入することで高品質なビデオを作成し、編集するための効率的で効果的なソリューションを提供する。
ユーザスタディを通じて、我々のシステムは、オブジェクトの写真のみを用いて、任意のオブジェクトを任意のビデオに強制的に配置できることを実証した。
デモビデオはhttps://youtu.be/afxqgllrnteで見ることができる。
アクセスにはプロジェクトページhttps://place-anything.github.ioも参照してください。
関連論文リスト
- OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos [7.616167860385134]
モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。
我々はOSNと呼ばれる新しいフレームワークを導入し、入力ビデオにマッチする高機能な3Dシーン構成を学習する。
本手法は, きめ細かい3次元シーン形状を学習する上で, 明らかな優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T05:03:46Z) - Artemis: Towards Referential Understanding in Complex Videos [61.756640718014154]
本稿では,ビデオに基づく参照理解をより微細なレベルに押し上げるMLLMであるArtemisを紹介する。
アルテミスはどんなビデオフレームにもバウンディングボックスのある自然言語の質問を受け取り、ビデオ全体の中で参照対象を説明する。
新たに確立されたVideoRef45Kデータセット上で,45KビデオQAペアを用いてArtemisをトレーニングし,計算効率のよい3段階トレーニング手順を設計する。
論文 参考訳(メタデータ) (2024-06-01T01:43:56Z) - Anything in Any Scene: Photorealistic Video Object Insertion [17.65822120887241]
リアルな映像シミュレーションのための新しいフレームワークであるAnything in Any Sceneを提案する。
あらゆるオブジェクトを既存のダイナミックビデオにシームレスに挿入し、物理的なリアリズムに強く重点を置いている。
実験により、Anything in Any Sceneは、優れた幾何学的リアリズム、照明リアリズム、フォトリアリズムのシミュレーションビデオを生成する。
論文 参考訳(メタデータ) (2024-01-30T23:54:43Z) - DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - ChatVideo: A Tracklet-centric Multimodal and Versatile Video
Understanding System [119.51012668709502]
マルチモーダル・多目的ビデオ理解のためのビジョンを提示し,プロトタイプシステム,システムを提案する。
本システムは,トラックレットを基本映像単位として扱う,トラックレット中心のパラダイムに基づいて構築されている。
検出されたすべてのトラックレットはデータベースに格納され、データベースマネージャを介してユーザと対話する。
論文 参考訳(メタデータ) (2023-04-27T17:59:58Z) - Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文 参考訳(メタデータ) (2022-03-03T18:51:05Z) - Xp-GAN: Unsupervised Multi-object Controllable Video Generation [8.807587076209566]
ビデオ生成は比較的新しいが、機械学習では人気がある。
ビデオ生成の現在の手法は、生成ビデオ内のオブジェクトの移動方法の正確な仕様をほとんど、あるいはまったく制御しない。
そこで,本研究では,対象物の上に有界なボックスを描き,そのボックスを所望の経路で移動させることで,単一の初期フレームの任意のオブジェクトを移動させる手法を提案する。
論文 参考訳(メタデータ) (2021-11-19T14:10:50Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。