Fugu-MT 論文翻訳(概要): InstructVid2Vid: Controllable Video Editing with Natural Language Instructions

論文の概要: InstructVid2Vid: Controllable Video Editing with Natural Language Instructions

arxiv url: http://arxiv.org/abs/2305.12328v1
Date: Sun, 21 May 2023 03:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 21:23:37.165731
Title: InstructVid2Vid: Controllable Video Editing with Natural Language Instructions
Title（参考訳）: InstructVid2Vid:自然言語による制御可能なビデオ編集
Authors: Bosheng Qin, Juncheng Li, Siliang Tang, Tat-Seng Chua, Yueting Zhuang
Abstract要約: 人間の言語命令で動画を編集するエンドツーエンド拡散方式,すなわち $textbfInstructVid2Vid$ を提案する。提案手法では,自然言語命令に基づく入力ビデオの編集を,例ごとの微調整や逆変換を行なわずに行うことができる。実験によると、InstructVid2Vidは高品質で時間的に整合したビデオを生成し、編集、背景の変更、スタイル転送など様々な編集を行うことができる。
参考スコア（独自算出の注目度）: 106.6740407795944
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present an end-to-end diffusion-based method for editing videos with human language instructions, namely $\textbf{InstructVid2Vid}$. Our approach enables the editing of input videos based on natural language instructions without any per-example fine-tuning or inversion. The proposed InstructVid2Vid model combines a pretrained image generation model, Stable Diffusion, with a conditional 3D U-Net architecture to generate time-dependent sequence of video frames. To obtain the training data, we incorporate the knowledge and expertise of different models, including ChatGPT, BLIP, and Tune-a-Video, to synthesize video-instruction triplets, which is a more cost-efficient alternative to collecting data in real-world scenarios. To improve the consistency between adjacent frames of generated videos, we propose the Frame Difference Loss, which is incorporated during the training process. During inference, we extend the classifier-free guidance to text-video input to guide the generated results, making them more related to both the input video and instruction. Experiments demonstrate that InstructVid2Vid is able to generate high-quality, temporally coherent videos and perform diverse edits, including attribute editing, change of background, and style transfer. These results highlight the versatility and effectiveness of our proposed method. Code is released in $\href{https://github.com/BrightQin/InstructVid2Vid}{InstructVid2Vid}$.
Abstract（参考訳）: 人間の言語命令で動画を編集するエンドツーエンド拡散方式,すなわち $\textbf{InstructVid2Vid}$ を提案する。提案手法では,自然言語命令に基づく入力ビデオの編集を,例ごとの微調整や逆変換なしに行うことができる。提案するinstructvid2vidモデルは,事前学習した画像生成モデルであるstable diffusionと条件付き3次元u-netアーキテクチャを組み合わせることで,映像フレームの時間依存シーケンスを生成する。トレーニングデータを得るために,ChatGPT,BLIP,Tune-a-Videoなど,さまざまなモデルの知識と専門知識を取り入れて,実世界のシナリオで収集するよりもコスト効率のよいビデオインストラクション三脚を合成する。生成したビデオの隣接フレーム間の整合性を改善するために,トレーニングプロセス中に組み込まれたフレーム差分損失を提案する。推論中、分類子なし指導をテキストビデオ入力に拡張し、生成した結果をガイドし、入力ビデオと命令の両方により関連付ける。実験によると、InstructVid2Vidは高品質で時間的に整合したビデオを生成し、属性編集、背景の変更、スタイル転送など様々な編集を行うことができる。これらの結果は,提案手法の汎用性と有効性を強調した。コードは $\href{https://github.com/BrightQin/InstructVid2Vid}{InstructVid2Vid}$でリリースされる。

関連論文リスト

OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions [96.31455979495398]
本研究では、画像編集データを用いた画像-動画移動混合(IVTM)訓練を開発し、カスタマイズされたビデオにおける被写体に対するインストラクティブな編集を可能にする。また,2つの埋め込み機構を持つ拡散トランスフォーマーフレームワークであるOmniVCusを提案し,Luttery Embedding (LE) とTemporally Aligned Embedding (TAE) を提案する。本手法は定量評価と定性評価の両方において最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2025-06-29T18:43:00Z)
Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文参考訳（メタデータ） (2025-04-23T06:48:31Z)
VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。 VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文参考訳（メタデータ） (2025-03-18T15:31:12Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文参考訳（メタデータ） (2024-01-17T13:07:22Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文参考訳（メタデータ） (2023-07-13T17:57:13Z)
Structure and Content-Guided Video Synthesis with Diffusion Models [13.464501385061032]
所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
論文参考訳（メタデータ） (2023-02-06T18:50:23Z)
TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary Generator [34.7504057664375]
本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。ステップバイステップの学習プロセスは、トレーニングの安定化を支援し、条件付きテキスト記述に基づく高解像度ビデオの作成を可能にする。
論文参考訳（メタデータ） (2020-09-04T06:33:08Z)
Unsupervised Multimodal Video-to-Video Translation via Self-Supervised Learning [92.17835753226333]
本稿では,教師なしビデオ間翻訳モデルを提案する。本モデルは,特殊なUVデコーダ構造を用いて,そのスタイルと内容を分解する。我々のモデルは、マルチモーダルな方法で写真リアリスティックなビデオを作成することができる。
論文参考訳（メタデータ） (2020-04-14T13:44:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。