論文の概要: Get In Video: Add Anything You Want to the Video
- arxiv url: http://arxiv.org/abs/2503.06268v1
- Date: Sat, 08 Mar 2025 16:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:10.266207
- Title: Get In Video: Add Anything You Want to the Video
- Title(参考訳): ビデオに好きなものを追加してみよう
- Authors: Shaobin Zhuang, Zhipeng Huang, Binxin Yang, Ying Zhang, Fangyikang Wang, Canmiao Fu, Chong Sun, Zheng-Jun Zha, Chen Li, Yali Wang,
- Abstract要約: ビデオ編集では、特定の現実世界のインスタンスを既存の映像に組み込む能力がますます求められている。
現在のアプローチでは、特定の対象のユニークな視覚的特徴を捉え、自然なインスタンス/シーンの相互作用を保証することができません。
本稿では,ユーザがビデオに取り入れたい視覚的要素を正確に特定するための参照画像を提供する「Get-In-Video Editing」を紹介する。
- 参考スコア(独自算出の注目度): 48.06070610416688
- License:
- Abstract: Video editing increasingly demands the ability to incorporate specific real-world instances into existing footage, yet current approaches fundamentally fail to capture the unique visual characteristics of particular subjects and ensure natural instance/scene interactions. We formalize this overlooked yet critical editing paradigm as "Get-In-Video Editing", where users provide reference images to precisely specify visual elements they wish to incorporate into videos. Addressing this task's dual challenges, severe training data scarcity and technical challenges in maintaining spatiotemporal coherence, we introduce three key contributions. First, we develop GetIn-1M dataset created through our automated Recognize-Track-Erase pipeline, which sequentially performs video captioning, salient instance identification, object detection, temporal tracking, and instance removal to generate high-quality video editing pairs with comprehensive annotations (reference image, tracking mask, instance prompt). Second, we present GetInVideo, a novel end-to-end framework that leverages a diffusion transformer architecture with 3D full attention to process reference images, condition videos, and masks simultaneously, maintaining temporal coherence, preserving visual identity, and ensuring natural scene interactions when integrating reference objects into videos. Finally, we establish GetInBench, the first comprehensive benchmark for Get-In-Video Editing scenario, demonstrating our approach's superior performance through extensive evaluations. Our work enables accessible, high-quality incorporation of specific real-world subjects into videos, significantly advancing personalized video editing capabilities.
- Abstract(参考訳): ビデオ編集では、特定の現実世界のインスタンスを既存の映像に組み込むことがますます求められているが、現在のアプローチでは、特定の被写体のユニークな視覚的特徴を捉え、自然のインスタンス/シーンの相互作用を確実にすることができない。
我々は、この見過ごされながら批判的な編集パラダイムを"Get-In-Video Editing"として形式化し、ユーザーがビデオに組み込んだい視覚要素を正確に指定するための参照画像を提供する。
この課題の2つの課題,厳格なトレーニングデータ不足,時空間コヒーレンス維持における技術的課題に対処するため,3つの重要なコントリビューションを紹介した。
まず、ビデオキャプション、健全なインスタンス識別、オブジェクト検出、時間追跡、インスタンス削除を順次実行し、包括的なアノテーション(参照画像、トラッキングマスク、インスタンスプロンプト)で高品質なビデオ編集ペアを生成する。
第二に、GetInVideoは、プロセス参照画像、コンディションビデオ、マスクを同時に処理し、時間的コヒーレンスを維持し、視覚的アイデンティティを保ち、参照オブジェクトをビデオに統合する際の自然なシーンインタラクションを確保するために、拡散トランスフォーマーアーキテクチャを利用する新しいエンドツーエンドフレームワークである。
最後に、Get-In-Video Editingシナリオの最初の包括的なベンチマークであるGetInBenchを確立し、広範囲な評価を通じて、アプローチの優れたパフォーマンスを示す。
我々の研究は、特定の現実世界の被写体をビデオにアクセス可能で高品質に組み込むことを可能にし、パーソナライズされたビデオ編集能力を著しく向上させる。
関連論文リスト
- CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers [15.558659099600822]
CustomVideoXは、LoRAパラメータをトレーニングして参照機能を抽出することで、事前トレーニングされたビデオネットワークを活用する。
本稿では,参照画像特徴の直接的かつ同時エンゲージメントを可能にする3D参照注意を提案する。
実験の結果, CustomVideoXはビデオの一貫性や品質という点で既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-10T14:50:32Z) - IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion [12.494492016414503]
既存のモデルでは、編集品質の低下、高い計算コスト、多種多様な編集における顔認証の保存の困難といった課題に直面している。
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルのリッチな潜時空間を活用する新しい顔画像編集フレームワークを提案する。
本手法は,ビデオシーケンス全体の時間的一貫性を維持しながら編集時間を80%削減する。
論文 参考訳(メタデータ) (2025-01-13T18:08:27Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - Knowledge-enhanced Multi-perspective Video Representation Learning for
Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。
既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。
複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T04:37:10Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。