Fugu-MT 論文翻訳(概要): Contrastive Sequential-Diffusion Learning: An approach to Multi-Scene Instructional Video Synthesis

論文の概要: Contrastive Sequential-Diffusion Learning: An approach to Multi-Scene Instructional Video Synthesis

arxiv url: http://arxiv.org/abs/2407.11814v1
Date: Tue, 16 Jul 2024 15:03:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 14:23:08.632851
Title: Contrastive Sequential-Diffusion Learning: An approach to Multi-Scene Instructional Video Synthesis
Title（参考訳）: コントラスト的逐次拡散学習:マルチシーンインストラクショナルビデオ合成へのアプローチ
Authors: Vasco Ramos, Yonatan Bitton, Michal Yarom, Idan Szpektor, Joao Magalhaes,
Abstract要約: アクション中心のシーケンス記述には、次のステップが即時前のステップではなく、前のステップで視覚的に一貫性を持たなければならない、非線形パターンが含まれている。本稿では,最も適切なシーンを選択して,次のシーンの復調過程をガイドし,条件付けするコントラッシブ・シーケンシャルな映像拡散手法を提案する。実世界のデータを用いた実験では,従来の作業と比較して,モデルの実用性と整合性の向上が示された。
参考スコア（独自算出の注目度）: 9.687215124767063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Action-centric sequence descriptions like recipe instructions and do-it-yourself projects include non-linear patterns in which the next step may require to be visually consistent not on the immediate previous step but on earlier steps. Current video synthesis approaches fail to generate consistent multi-scene videos for such task descriptions. We propose a contrastive sequential video diffusion method that selects the most suitable previously generated scene to guide and condition the denoising process of the next scene. The result is a multi-scene video that is grounded in the scene descriptions and coherent w.r.t the scenes that require consistent visualisation. Our experiments with real-world data demonstrate the practicality and improved consistency of our model compared to prior work.
Abstract（参考訳）: レシピインストラクションやdo-it-Yourselfプロジェクトのようなアクション中心のシーケンス記述には、直近のステップではなく、前のステップで視覚的に一貫性を持たなければならない、非線形パターンが含まれている。現在のビデオ合成手法では、このようなタスク記述に対して一貫したマルチシーンビデオを生成することができない。本稿では,最も適切なシーンを選択して,次のシーンの復調過程をガイドし,条件付けするコントラッシブ・シーケンシャルな映像拡散手法を提案する。その結果、シーン記述と一貫した視覚化を必要とするシーンとのコヒーレントなw.r.に基づいたマルチシーンビデオが出来上がった。実世界のデータを用いた実験では,従来の作業と比較して,モデルの実用性と整合性の向上が示された。

関連論文リスト

Enhancing Scene Transition Awareness in Video Generation via Post-Training [0.4199844472131921]
我々は,複数のシーン遷移を伴う前処理ビデオクリップからなるtextbfTransition-Aware Videoデータセットを提案する。実験の結果,textbfTAVデータセットのポストトレーニングにより,プロンプトベースのシーン遷移理解が向上し,必要なシーンと生成されたシーンのギャップが狭まり,画質が維持されることがわかった。
論文参考訳（メタデータ） (2025-07-24T02:50:26Z)
Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文参考訳（メタデータ） (2025-03-13T17:40:07Z)
Mobius: Text to Seamless Looping Video Generation via Latent Shift [50.04534295458244]
ユーザアノテーションを使わずにテキスト記述から直接シームレスにループするビデオを生成する新しい方法であるMobiusを提案する。本手法では,事前学習したビデオ遅延拡散モデルを用いて,テキストプロンプトからループ映像を生成する。
論文参考訳（メタデータ） (2025-02-27T17:33:51Z)
Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。 VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文参考訳（メタデータ） (2024-12-06T10:35:45Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文参考訳（メタデータ） (2024-01-10T23:26:41Z)
Highly Detailed and Temporal Consistent Video Stylization via Synchronized Multi-Frame Diffusion [22.33952368534147]
テキストガイド付きビデオ・ビデオ・スタイリングは、ソースビデオの視覚的な外観を、テキストプロンプトでガイドされた異なる外観に変換する。既存のテキスト誘導画像拡散モデルは、スタイリングされたビデオ合成のために拡張することができる。視覚的詳細と時間的整合性の両方を維持するための同期多フレーム拡散フレームワークを提案する。
論文参考訳（メタデータ） (2023-11-24T08:38:19Z)
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文参考訳（メタデータ） (2023-10-31T17:58:17Z)
WAIT: Feature Warping for Animation to Illustration video Translation using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文参考訳（メタデータ） (2023-10-07T19:45:24Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-05-11T13:31:15Z)
Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文参考訳（メタデータ） (2020-10-22T16:19:20Z)
Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。 CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2020-04-01T16:09:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。