Fugu-MT 論文翻訳(概要): Contrastive Sequential-Diffusion Learning: Non-linear and Multi-Scene Instructional Video Synthesis

論文の概要: Contrastive Sequential-Diffusion Learning: Non-linear and Multi-Scene Instructional Video Synthesis

arxiv url: http://arxiv.org/abs/2407.11814v3
Date: Fri, 06 Dec 2024 19:52:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 16:49:05.183965
Title: Contrastive Sequential-Diffusion Learning: Non-linear and Multi-Scene Instructional Video Synthesis
Title（参考訳）: コントラスト的逐次拡散学習:非線形・マルチシーンインストラクショナルビデオ合成
Authors: Vasco Ramos, Yonatan Bitton, Michal Yarom, Idan Szpektor, Joao Magalhaes,
Abstract要約: 本稿では,最も適切なシーンを選択して,次のシーンの復調過程をガイドし,条件付けするコントラッシブ・シーケンシャルな映像拡散手法を提案する。実世界の行動中心データを用いた実験は、過去の研究と比較して、我々のモデルの実用性と一貫性を実証し、改善した。
参考スコア（独自算出の注目度）: 9.687215124767063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generated video scenes for action-centric sequence descriptions, such as recipe instructions and do-it-yourself projects, often include non-linear patterns, where the next video may need to be visually consistent not with the immediately preceding video but with earlier ones. Current multi-scene video synthesis approaches fail to meet these consistency requirements. To address this, we propose a contrastive sequential video diffusion method that selects the most suitable previously generated scene to guide and condition the denoising process of the next scene. The result is a multi-scene video that is grounded in the scene descriptions and coherent w.r.t. the scenes that require visual consistency. Experiments with action-centered data from the real world demonstrate the practicality and improved consistency of our model compared to previous work.
Abstract（参考訳）: レシピインストラクションやdo-it-yourselfプロジェクトのようなアクション中心のシーケンス記述のための生成されたビデオシーンは、しばしば非線形パターンを含み、次のビデオは、直前のビデオではなく、以前のものと視覚的に整合する必要がある。現在のマルチシーンビデオ合成手法は、これらの整合性要件を満たすことができない。そこで本研究では,最も適切に生成されたシーンを選択して,次のシーンの復調過程をガイドし,条件付けするコントラッシブ・シーケンシャルな映像拡散手法を提案する。その結果は、シーン記述と、視覚的な一貫性を必要とするシーンのコヒーレントなw.r.t.に基礎を置いているマルチシーンビデオである。実世界の行動中心データを用いた実験は、過去の研究と比較して、我々のモデルの実用性と一貫性を実証し、改善した。

関連論文リスト

CineScene: Implicit 3D as Effective Scene Representation for Cinematic Video Generation [65.03946626081036]
映像生成に暗黙的な3D認識シーン表現を活用するフレームワークであるCineSceneを提案する。 CineSceneは、シーン一貫性のある映像生成において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-02-06T18:59:24Z)
Enhancing Scene Transition Awareness in Video Generation via Post-Training [0.4199844472131921]
我々は,複数のシーン遷移を伴う前処理ビデオクリップからなるtextbfTransition-Aware Videoデータセットを提案する。実験の結果,textbfTAVデータセットのポストトレーニングにより,プロンプトベースのシーン遷移理解が向上し,必要なシーンと生成されたシーンのギャップが狭まり,画質が維持されることがわかった。
論文参考訳（メタデータ） (2025-07-24T02:50:26Z)
Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文参考訳（メタデータ） (2025-03-13T17:40:07Z)
Mobius: Text to Seamless Looping Video Generation via Latent Shift [50.04534295458244]
ユーザアノテーションを使わずにテキスト記述から直接シームレスにループするビデオを生成する新しい方法であるMobiusを提案する。本手法では,事前学習したビデオ遅延拡散モデルを用いて,テキストプロンプトからループ映像を生成する。
論文参考訳（メタデータ） (2025-02-27T17:33:51Z)
Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。 VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文参考訳（メタデータ） (2024-12-06T10:35:45Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文参考訳（メタデータ） (2024-01-10T23:26:41Z)
Highly Detailed and Temporal Consistent Video Stylization via Synchronized Multi-Frame Diffusion [22.33952368534147]
テキストガイド付きビデオ・ビデオ・スタイリングは、ソースビデオの視覚的な外観を、テキストプロンプトでガイドされた異なる外観に変換する。既存のテキスト誘導画像拡散モデルは、スタイリングされたビデオ合成のために拡張することができる。視覚的詳細と時間的整合性の両方を維持するための同期多フレーム拡散フレームワークを提案する。
論文参考訳（メタデータ） (2023-11-24T08:38:19Z)
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文参考訳（メタデータ） (2023-10-31T17:58:17Z)
WAIT: Feature Warping for Animation to Illustration video Translation using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文参考訳（メタデータ） (2023-10-07T19:45:24Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-05-11T13:31:15Z)
Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文参考訳（メタデータ） (2020-10-22T16:19:20Z)
Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。 CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2020-04-01T16:09:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。