論文の概要: SAGE: Structure-Aware Generative Video Transitions between Diverse Clips
- arxiv url: http://arxiv.org/abs/2510.24667v1
- Date: Tue, 28 Oct 2025 17:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.308922
- Title: SAGE: Structure-Aware Generative Video Transitions between Diverse Clips
- Title(参考訳): SAGE: 横クリップ間の構造認識ビデオ遷移
- Authors: Mia Kan, Yilin Liu, Niloy Mitra,
- Abstract要約: 生成的なvidEo遷移は、微調整なしで滑らかで意味的に一貫した遷移を生成する。
SAGE(Structure-Aware Generative vidEo transitions)は、ラインマップとモーションフローを通じて提供される構造ガイダンスと生成合成を組み合わせたゼロショットアプローチである。
- 参考スコア(独自算出の注目度): 7.501790515877048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video transitions aim to synthesize intermediate frames between two clips, but naive approaches such as linear blending introduce artifacts that limit professional use or break temporal coherence. Traditional techniques (cross-fades, morphing, frame interpolation) and recent generative inbetweening methods can produce high-quality plausible intermediates, but they struggle with bridging diverse clips involving large temporal gaps or significant semantic differences, leaving a gap for content-aware and visually coherent transitions. We address this challenge by drawing on artistic workflows, distilling strategies such as aligning silhouettes and interpolating salient features to preserve structure and perceptual continuity. Building on this, we propose SAGE (Structure-Aware Generative vidEo transitions) as a zeroshot approach that combines structural guidance, provided via line maps and motion flow, with generative synthesis, enabling smooth, semantically consistent transitions without fine-tuning. Extensive experiments and comparison with current alternatives, namely [FILM, TVG, DiffMorpher, VACE, GI], demonstrate that SAGE outperforms both classical and generative baselines on quantitative metrics and user studies for producing transitions between diverse clips. Code to be released on acceptance.
- Abstract(参考訳): ビデオ遷移は、中間フレームを2つのクリップ間で合成することを目的としているが、線形ブレンディングのような単純なアプローチは、プロの使用を制限するアーティファクトを導入し、時間的コヒーレンスを断ち切る。
伝統的な技法(クロスフェイズ、モーフィング、フレーム補間)や最近の生成的内在法は高品質な可塑性中間体を生成するが、それらは大きな時間的ギャップや重要な意味的差異を含む多様なクリップのブリッジに苦労し、コンテンツ認識と視覚的に一貫性のある遷移のギャップを残している。
この課題は、芸術的ワークフロー、シルエットの整列、構造と知覚的連続性を維持するための補間といった蒸留戦略に基づいて解決する。
そこで我々は, SAGE (Structure-Aware Generative vidEo transitions) をゼロショットアプローチとして提案し, ラインマップとモーションフローによる構造誘導と生成合成を併用し, 微調整なしでスムーズで意味的に一貫した遷移を可能にする。
FILM, TVG, DiffMorpher, VACE, GI] という,現行の選択肢との比較実験により, SAGE は, 様々なクリップ間の遷移を生成するために, 定量的メトリクスとユーザスタディにおいて, 古典的, 生成的ベースラインの両方に優れることを示した。
コードは受理時にリリースされる。
関連論文リスト
- LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - SOYO: A Tuning-Free Approach for Video Style Morphing via Style-Adaptive Interpolation in Diffusion Models [54.641809532055916]
本稿では,ビデオスタイルモーフィングのための新しい拡散型フレームワークであるSOYOを紹介する。
本手法では, 微調整を伴わずに事前訓練したテキスト・画像拡散モデルを用い, 注意注入とAdaINを併用して構造的整合性を維持する。
ビデオフレーム間の調和を図るために,2種類の画像間の適応型サンプリングスケジューラを提案する。
論文 参考訳(メタデータ) (2025-03-10T07:27:01Z) - Text2Story: Advancing Video Storytelling with Text Guidance [19.901781116843942]
本研究では、シーンとアクションプロンプトを統合し、動的にインスパイアされたプロンプトミキシングによってこれを実現できる新しいストーリーテリングフレームワークを提案する。
本研究では,各拡散時間におけるシーンおよびアクションプロンプトの影響を適応的にバランスさせる動的インフォームドプロンプト重み付け機構を提案する。
動きの連続性をさらに向上するために、ハイレベルなアクション意味論をブレンディングプロセスにエンコードするために、セマンティックアクション表現を組み込む。
論文 参考訳(メタデータ) (2025-03-08T19:04:36Z) - RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - Discrete to Continuous: Generating Smooth Transition Poses from Sign Language Observation [45.214169930573775]
本研究では,文脈的に滑らかな遷移フレームを合成するための条件拡散モデルを提案する。
本手法は,遷移フレーム生成の教師なし問題を教師なし学習タスクに変換する。
PHO14TENIX, USTC-CSL100, USTC-500データセットを用いた実験により, 本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-25T15:06:49Z) - TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。
拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。
本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T00:33:14Z) - MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling [19.004339956475498]
MAVINは、2つの動画をシームレスに接続し、結合的な統合シーケンスを形成するトランジションビデオを生成するように設計されている。
従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するための新しい指標CLIP-RS(CLIP Relative Smoothness)を導入する。
馬とトラのシナリオに関する実験結果は、滑らかでコヒーレントなビデオ遷移を生成するMAVINの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-28T09:46:09Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。