Fugu-MT 論文翻訳(概要): Training-Free Semantic Video Composition via Pre-trained Diffusion Model

論文の概要: Training-Free Semantic Video Composition via Pre-trained Diffusion Model

arxiv url: http://arxiv.org/abs/2401.09195v1
Date: Wed, 17 Jan 2024 13:07:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 15:48:02.501952
Title: Training-Free Semantic Video Composition via Pre-trained Diffusion Model
Title（参考訳）: 事前学習拡散モデルによる無訓練セマンティックビデオ合成
Authors: Jiaqi Guo, Sitong Su, Junchen Zhu, Lianli Gao, Jingkuan Song
Abstract要約: 現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
参考スコア（独自算出の注目度）: 96.0168609879295
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The video composition task aims to integrate specified foregrounds and backgrounds from different videos into a harmonious composite. Current approaches, predominantly trained on videos with adjusted foreground color and lighting, struggle to address deep semantic disparities beyond superficial adjustments, such as domain gaps. Therefore, we propose a training-free pipeline employing a pre-trained diffusion model imbued with semantic prior knowledge, which can process composite videos with broader semantic disparities. Specifically, we process the video frames in a cascading manner and handle each frame in two processes with the diffusion model. In the inversion process, we propose Balanced Partial Inversion to obtain generation initial points that balance reversibility and modifiability. Then, in the generation process, we further propose Inter-Frame Augmented attention to augment foreground continuity across frames. Experimental results reveal that our pipeline successfully ensures the visual harmony and inter-frame coherence of the outputs, demonstrating efficacy in managing broader semantic disparities.
Abstract（参考訳）: ビデオ合成タスクは、異なるビデオからの特定の前景と背景を調和したコンポジットに統合することを目的としている。現在のアプローチは、主に前景の色や照明を調整したビデオで訓練されており、ドメインギャップのような表面的な調整以上の深い意味的格差に対処するのに苦労している。そこで本研究では,意味的事前知識を付与した事前学習された拡散モデルを用いて,複合映像をより広い意味的差異で処理可能なトレーニングフリーパイプラインを提案する。具体的には,ビデオフレームをカスケード方式で処理し,拡散モデルを用いて各フレームを2つのプロセスで処理する。逆転過程において、可逆性と変調性のバランスを保った初期点を生成するためにバランス部分逆転法を提案する。そして, 生成過程において, フレーム間の連続性を高めるために, フレーム間拡張注意を提案する。実験の結果,本パイプラインは,出力の視覚的調和とフレーム間コヒーレンスを良好に確保でき,幅広い意味的差異の管理に有効性が示された。

関連論文リスト

TPDiff: Temporal Pyramid Video Diffusion Model [16.48006100084994]
トレーニングと推論効率を向上させる統合フレームワークであるPDiffを提案する。拡散をいくつかの段階に分割することで,拡散過程に沿ってフレームレートを徐々に向上させる。整列データと雑音下での拡散の分配された確率流常微分方程式(ODE)を解くことにより、我々の訓練戦略は様々な拡散形式に適用できる。
論文参考訳（メタデータ） (2025-03-12T17:33:22Z)
RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文参考訳（メタデータ） (2025-01-15T18:20:37Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文参考訳（メタデータ） (2024-08-24T00:33:14Z)
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文参考訳（メタデータ） (2024-03-19T17:59:18Z)
Highly Detailed and Temporal Consistent Video Stylization via Synchronized Multi-Frame Diffusion [22.33952368534147]
テキストガイド付きビデオ・ビデオ・スタイリングは、ソースビデオの視覚的な外観を、テキストプロンプトでガイドされた異なる外観に変換する。既存のテキスト誘導画像拡散モデルは、スタイリングされたビデオ合成のために拡張することができる。視覚的詳細と時間的整合性の両方を維持するための同期多フレーム拡散フレームワークを提案する。
論文参考訳（メタデータ） (2023-11-24T08:38:19Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文参考訳（メタデータ） (2022-01-27T16:38:52Z)
Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文参考訳（メタデータ） (2020-12-09T14:05:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。