Fugu-MT 論文翻訳(概要): InstructVid2Vid: Controllable Video Editing with Natural Language Instructions

論文の概要: InstructVid2Vid: Controllable Video Editing with Natural Language Instructions

arxiv url: http://arxiv.org/abs/2305.12328v2
Date: Wed, 29 May 2024 11:08:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 02:31:12.155517
Title: InstructVid2Vid: Controllable Video Editing with Natural Language Instructions
Title（参考訳）: InstructVid2Vid:自然言語による制御可能なビデオ編集
Authors: Bosheng Qin, Juncheng Li, Siliang Tang, Tat-Seng Chua, Yueting Zhuang,
Abstract要約: InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
参考スコア（独自算出の注目度）: 97.17047888215284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce InstructVid2Vid, an end-to-end diffusion-based methodology for video editing guided by human language instructions. Our approach empowers video manipulation guided by natural language directives, eliminating the need for per-example fine-tuning or inversion. The proposed InstructVid2Vid model modifies a pretrained image generation model, Stable Diffusion, to generate a time-dependent sequence of video frames. By harnessing the collective intelligence of disparate models, we engineer a training dataset rich in video-instruction triplets, which is a more cost-efficient alternative to collecting data in real-world scenarios. To enhance the coherence between successive frames within the generated videos, we propose the Inter-Frames Consistency Loss and incorporate it during the training process. With multimodal classifier-free guidance during the inference stage, the generated videos is able to resonate with both the input video and the accompanying instructions. Experimental results demonstrate that InstructVid2Vid is capable of generating high-quality, temporally coherent videos and performing diverse edits, including attribute editing, background changes, and style transfer. These results underscore the versatility and effectiveness of our proposed method.
Abstract（参考訳）: InstructVid2Vidは人間の言語指導による映像編集のためのエンドツーエンド拡散方式である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。提案したInstructVid2Vidモデルは、予め訓練された画像生成モデルであるStable Diffusionを変更して、ビデオフレームの時間依存シーケンスを生成する。異なるモデルの集合的インテリジェンスを活用することで、私たちは、実世界のシナリオでデータを収集するよりコスト効率の良い代替手段として、ビデオインストラクション三脚に富んだトレーニングデータセットを構築しました。生成したビデオ内の連続したフレーム間のコヒーレンスを高めるために、フレーム間一貫性損失を提案し、トレーニングプロセス中にそれを組み込む。推論段階におけるマルチモーダル分類器フリーガイダンスにより、生成されたビデオは、入力されたビデオと付随する命令の両方に共鳴することができる。実験結果から,InstructVid2Vidは高品質で時間的コヒーレントなビデオを生成し,属性編集や背景変更,スタイル転送などの多様な編集を行うことができることがわかった。これらの結果は,提案手法の汎用性と有効性を示すものである。

関連論文リスト

Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing [93.8111348452324]
Tele-Omniはビデオ生成と編集のための統合されたフレームワークで、マルチモーダルな指示に従う。テキスト・ツー・ビデオ生成、画像・ビデオ生成、ファースト・ラスト・フレーム・ビデオ生成、イン・コンテクスト・ビデオ生成、およびイン・コンテクスト・ビデオ編集をサポートする。
論文参考訳（メタデータ） (2026-02-10T10:01:16Z)
VideoWeave: A Data-Centric Approach for Efficient Video Understanding [54.5804686337209]
我々は、合成長文学習サンプルを構築して、データ効率を改善するためのシンプルで効果的な方法であるVideoWeaveを提案する。 VideoWeaveは、利用可能なビデオテキストペアを再編成して、固定計算内で時間的多様性を拡大する。我々の結果は、アーキテクチャを変更するのではなく、トレーニングデータを再編成することで、ビデオ言語モデルをトレーニングするためのシンプルでスケーラブルなパスを提供できることを強調している。
論文参考訳（メタデータ） (2026-01-09T20:55:26Z)
SneakPeek: Future-Guided Instructional Streaming Video Generation [27.65687424500011]
我々は,SneakPeekという,将来駆動型ストリーミングインストラクショナルビデオ生成のためのパイプラインを導入する。当社のアプローチでは,一貫性と可制御性を高めるために,3つの重要なイノベーションを導入しています。実験により,本手法は時間的コヒーレントで意味論的に忠実な指導ビデオを生成することが示された。
論文参考訳（メタデータ） (2025-12-15T06:32:57Z)
Show Me: Unifying Instructional Image and Video Generation with Diffusion Models [16.324312147741495]
画像の操作と映像の予測を可能にする統一的なフレームワークを提案する。構造的忠実度と時間的コヒーレンスを改善するために,構造的および運動的整合性報酬を導入する。多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,専門家モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-11-21T23:24:28Z)
OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions [96.31455979495398]
本研究では、画像編集データを用いた画像-動画移動混合(IVTM)訓練を開発し、カスタマイズされたビデオにおける被写体に対するインストラクティブな編集を可能にする。また,2つの埋め込み機構を持つ拡散トランスフォーマーフレームワークであるOmniVCusを提案し,Luttery Embedding (LE) とTemporally Aligned Embedding (TAE) を提案する。本手法は定量評価と定性評価の両方において最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2025-06-29T18:43:00Z)
Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文参考訳（メタデータ） (2025-04-23T06:48:31Z)
VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。 VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文参考訳（メタデータ） (2025-03-18T15:31:12Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文参考訳（メタデータ） (2024-01-17T13:07:22Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文参考訳（メタデータ） (2023-07-13T17:57:13Z)
Structure and Content-Guided Video Synthesis with Diffusion Models [13.464501385061032]
所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
論文参考訳（メタデータ） (2023-02-06T18:50:23Z)
TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary Generator [34.7504057664375]
本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。ステップバイステップの学習プロセスは、トレーニングの安定化を支援し、条件付きテキスト記述に基づく高解像度ビデオの作成を可能にする。
論文参考訳（メタデータ） (2020-09-04T06:33:08Z)
Unsupervised Multimodal Video-to-Video Translation via Self-Supervised Learning [92.17835753226333]
本稿では,教師なしビデオ間翻訳モデルを提案する。本モデルは,特殊なUVデコーダ構造を用いて,そのスタイルと内容を分解する。我々のモデルは、マルチモーダルな方法で写真リアリスティックなビデオを作成することができる。
論文参考訳（メタデータ） (2020-04-14T13:44:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。