Fugu-MT 論文翻訳(概要): MeDM: Mediating Image Diffusion Models for Video-to-Video Translation with Temporal Correspondence Guidance

論文の概要: MeDM: Mediating Image Diffusion Models for Video-to-Video Translation with Temporal Correspondence Guidance

arxiv url: http://arxiv.org/abs/2308.10079v2
Date: Fri, 1 Sep 2023 05:28:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-04 16:12:00.807601
Title: MeDM: Mediating Image Diffusion Models for Video-to-Video Translation with Temporal Correspondence Guidance
Title（参考訳）: MeDM:時間対応誘導によるビデオ間翻訳のための画像拡散モデル
Authors: Ernie Chu, Tzuhsuan Huang, Shuo-Yen Lin, Jun-Cheng Chen
Abstract要約: 本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的な方法であるMeDMを提案する。我々は、生成したフレームの物理的制約を強制し、独立したフレーム単位のスコアを仲介する実用的な符号化を構築するために、明示的な光学フローを用いる。 MeDMは拡散モデルの微調整やテストタイムの最適化を必要としない。
参考スコア（独自算出の注目度）: 10.457759140533168
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study introduces an efficient and effective method, MeDM, that utilizes pre-trained image Diffusion Models for video-to-video translation with consistent temporal flow. The proposed framework can render videos from scene position information, such as a normal G-buffer, or perform text-guided editing on videos captured in real-world scenarios. We employ explicit optical flows to construct a practical coding that enforces physical constraints on generated frames and mediates independent frame-wise scores. By leveraging this coding, maintaining temporal consistency in the generated videos can be framed as an optimization problem with a closed-form solution. To ensure compatibility with Stable Diffusion, we also suggest a workaround for modifying observed-space scores in latent-space Diffusion Models. Notably, MeDM does not require fine-tuning or test-time optimization of the Diffusion Models. Through extensive qualitative, quantitative, and subjective experiments on various benchmarks, the study demonstrates the effectiveness and superiority of the proposed approach. Project page can be found at https://medm2023.github.io
Abstract（参考訳）: 本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的なMeDMを提案する。提案フレームワークでは,通常のGバッファなどのシーン位置情報から映像をレンダリングしたり,現実のシナリオで撮影した映像のテキストガイド編集を行うことができる。我々は,生成するフレームに物理的制約を課し,独立したフレーム毎のスコアを調停する実用的なコーディングを構築するために,明示的なオプティカルフローを用いる。このコーディングを活用することで、生成されたビデオの時間的一貫性をクローズドフォームソリューションによる最適化問題としてフレーム化することができる。安定拡散との互換性を確保するため,潜在空間拡散モデルにおいて観測空間スコアを変更するための回避策を提案する。特に、MeDMは拡散モデルの微調整やテストタイムの最適化を必要としない。様々なベンチマークにおける定性的、定量的、主観的な実験を通じて、提案手法の有効性と優位性を示す。プロジェクトページはhttps://medm2023.github.ioにある。

関連論文リスト

Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文参考訳（メタデータ） (2025-12-03T15:51:11Z)
FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。 Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文参考訳（メタデータ） (2025-09-28T17:59:43Z)
Temporal In-Context Fine-Tuning for Versatile Control of Video Diffusion Models [34.131515004434846]
我々は,事前学習した映像拡散モデルを条件付き生成タスクに適用するための効率的なアプローチであるTIC-FT(Temporal In-Context Fine-Tuning)を導入する。 TIC-FTはアーキテクチャの変更を必要とせず、10-30のトレーニングサンプルで高いパフォーマンスを実現している。我々は,CagVideoX-5B や Wan-14B といった大規模ベースモデルを用いて,映像映像生成や映像映像生成など,様々なタスクにまたがる手法を検証する。
論文参考訳（メタデータ） (2025-06-01T12:57:43Z)
EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation [26.888320234592978]
ゼロショット、トレーニングなし、画像ベースのテキスト・ツー・ビデオ生成は、既存の画像ベースの拡散モデルを用いてビデオを生成することを目的とした新興分野である。拡散軌道の交叉を用いて,潜在値のみを扱うモデルに依存しない手法を提案する。文脈内で訓練されたLLMはコヒーレントなフレームワイドプロンプトを生成するために使用され、もう1つはフレーム間の差異を特定するために使用される。提案手法は,多様な画像生成モデルを扱う場合,より柔軟でありながら,最先端の性能が向上する。
論文参考訳（メタデータ） (2025-04-09T13:11:09Z)
Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation [11.77588746719272]
本稿では、VLFM(Video Latent Flow Matching)と呼ばれる効率的なビデオモデリングプロセスについて考察する。提案手法は,時間依存の映像フレームにデコード可能な潜在パッチのキャプション誘導流れをモデル化し,既存の強い事前学習画像生成モデルに依存する。提案手法の有効性を示すために,複数のテキスト・ビデオ・データセットの実験を行った。
論文参考訳（メタデータ） (2025-02-01T17:40:11Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-06T05:46:17Z)
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文参考訳（メタデータ） (2024-06-03T00:31:13Z)
Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-05-27T08:39:38Z)
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文参考訳（メタデータ） (2024-03-19T17:59:18Z)
Inflation with Diffusion: Efficient Temporal Adaptation for Text-to-Video Super-Resolution [19.748048455806305]
本稿では,効率的な拡散型テキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。本稿では,我々の拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
論文参考訳（メタデータ） (2024-01-18T22:25:16Z)
VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文参考訳（メタデータ） (2022-12-01T02:58:46Z)
Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文参考訳（メタデータ） (2020-02-26T12:24:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。