Fugu-MT 論文翻訳(概要): DIVE: Taming DINO for Subject-Driven Video Editing

論文の概要: DIVE: Taming DINO for Subject-Driven Video Editing

arxiv url: http://arxiv.org/abs/2412.03347v1
Date: Wed, 04 Dec 2024 14:28:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.696343
Title: DIVE: Taming DINO for Subject-Driven Video Editing
Title（参考訳）: DIVE:DINOをテーマ駆動ビデオ編集に活用
Authors: Yi Huang, Wei Xiong, He Zhang, Chaoqi Chen, Jianzhuang Liu, Mingfu Yan, Shifeng Chen,
Abstract要約: DINO-Guided Video Editing (DIVE) は、ソースビデオの主題駆動編集を容易にするために設計されたフレームワークである。 DIVEは、ソースビデオの運動軌跡に合わせるためにDINO機能を使用している。正確な主題編集のために、DIVEは参照画像のDINO特徴を事前訓練されたテキスト・ツー・イメージモデルに組み込む。
参考スコア（独自算出の注目度）: 49.090071984272576
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building on the success of diffusion models in image generation and editing, video editing has recently gained substantial attention. However, maintaining temporal consistency and motion alignment still remains challenging. To address these issues, this paper proposes DINO-guided Video Editing (DIVE), a framework designed to facilitate subject-driven editing in source videos conditioned on either target text prompts or reference images with specific identities. The core of DIVE lies in leveraging the powerful semantic features extracted from a pretrained DINOv2 model as implicit correspondences to guide the editing process. Specifically, to ensure temporal motion consistency, DIVE employs DINO features to align with the motion trajectory of the source video. Extensive experiments on diverse real-world videos demonstrate that our framework can achieve high-quality editing results with robust motion consistency, highlighting the potential of DINO to contribute to video editing. For precise subject editing, DIVE incorporates the DINO features of reference images into a pretrained text-to-image model to learn Low-Rank Adaptations (LoRAs), effectively registering the target subject's identity. Project page: https://dino-video-editing.github.io
Abstract（参考訳）: 近年,画像生成・編集における拡散モデルの成功により,映像編集が注目されている。しかし、時間的一貫性と動きの整合性を維持することは依然として困難である。これらの課題に対処するため,DINO-Guided Video Editing (DIVE) を提案する。 DIVEの中核は、事前訓練されたDINOv2モデルから抽出された強力な意味的特徴を暗黙の対応として利用して編集プロセスを導くことである。具体的には、時間的動きの整合性を確保するために、DIVEはDINO機能を使用して、ソースビデオの運動軌跡と整合する。多様な実世界のビデオに対する大規模な実験により、我々のフレームワークは、動きの一貫性を保ちながら高品質な編集結果を達成できることが示され、DINOが映像編集に貢献する可能性を浮き彫りにした。正確な主題編集のために、DIVEは参照画像のDINO特徴を事前訓練されたテキスト・ツー・イメージモデルに組み込んでローランド適応(LoRA)を学習し、対象者のアイデンティティを効果的に登録する。プロジェクトページ: https://dino-video-editing.github.io

関連論文リスト

Region-Constraint In-Context Generation for Instructional Video Editing [91.27224696009755]
本稿では,テキスト内生成中の編集領域と非編集領域の制約モデリングに着目する新しい指導ビデオ編集パラダイムReCoを提案する。本稿では,500Kの命令-ビデオペアからなる大規模かつ高品質なビデオ編集データセットであるReCo-Dataを提案する。
論文参考訳（メタデータ） (2025-12-19T14:49:30Z)
EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T17:59:30Z)
InsViE-1M: Effective Instruction-based Video Editing with Elaborate Dataset Construction [10.855393943204728]
高品質なインストラクションベースのビデオ編集データセットを,100万トリプル,すなわちInsViE-1Mで提示する。まず、高解像度で高品質なソースビデオと画像をキュレートし、次に効率的な編集フィルタリングパイプラインを設計し、モデルトレーニングのための高品質な編集三脚を構築する。
論文参考訳（メタデータ） (2025-03-26T07:30:58Z)
VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。 VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文参考訳（メタデータ） (2025-03-18T15:31:12Z)
Edit as You See: Image-guided Video Editing via Masked Motion Modeling [18.89936405508778]
画像誘導映像編集拡散モデル(IVEDiff)を提案する。 IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。本手法は,高画質な編集対象を忠実に処理しながら,時間的にスムーズな編集映像を生成することができる。
論文参考訳（メタデータ） (2025-01-08T07:52:12Z)
HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文参考訳（メタデータ） (2024-06-11T22:31:29Z)
Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文参考訳（メタデータ） (2024-06-07T12:33:59Z)
Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文参考訳（メタデータ） (2024-05-27T04:44:36Z)
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。 I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文参考訳（メタデータ） (2024-05-26T11:47:40Z)
GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文参考訳（メタデータ） (2024-04-18T23:25:27Z)
AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
我々はビデオ編集を簡単にするための新しいチューニング不要のパラダイムであるAnyV2Vを紹介する。 AnyV2Vは、既存の画像編集ツールを利用して、幅広いビデオ編集タスクをサポートすることができる。評価の結果,AnyV2Vは他のベースライン法に匹敵するCLIPスコアが得られた。
論文参考訳（メタデータ） (2024-03-21T15:15:00Z)
EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文参考訳（メタデータ） (2024-03-18T08:42:08Z)
VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文参考訳（メタデータ） (2023-11-30T18:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。