論文の概要: SneakPeek: Future-Guided Instructional Streaming Video Generation
- arxiv url: http://arxiv.org/abs/2512.13019v1
- Date: Mon, 15 Dec 2025 06:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.55738
- Title: SneakPeek: Future-Guided Instructional Streaming Video Generation
- Title(参考訳): SneakPeek:未来志向のインストラクショナル・ストリーミング・ビデオ・ジェネレーション
- Authors: Cheeun Hong, German Barquero, Fadime Sener, Markos Georgopoulos, Edgar Schönfeld, Stefan Popov, Yuming Du, Oscar Mañas, Albert Pumarola,
- Abstract要約: 我々は,SneakPeekという,将来駆動型ストリーミングインストラクショナルビデオ生成のためのパイプラインを導入する。
当社のアプローチでは,一貫性と可制御性を高めるために,3つの重要なイノベーションを導入しています。
実験により,本手法は時間的コヒーレントで意味論的に忠実な指導ビデオを生成することが示された。
- 参考スコア(独自算出の注目度): 27.65687424500011
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Instructional video generation is an emerging task that aims to synthesize coherent demonstrations of procedural activities from textual descriptions. Such capability has broad implications for content creation, education, and human-AI interaction, yet existing video diffusion models struggle to maintain temporal consistency and controllability across long sequences of multiple action steps. We introduce a pipeline for future-driven streaming instructional video generation, dubbed SneakPeek, a diffusion-based autoregressive framework designed to generate precise, stepwise instructional videos conditioned on an initial image and structured textual prompts. Our approach introduces three key innovations to enhance consistency and controllability: (1) predictive causal adaptation, where a causal model learns to perform next-frame prediction and anticipate future keyframes; (2) future-guided self-forcing with a dual-region KV caching scheme to address the exposure bias issue at inference time; (3) multi-prompt conditioning, which provides fine-grained and procedural control over multi-step instructions. Together, these components mitigate temporal drift, preserve motion consistency, and enable interactive video generation where future prompt updates dynamically influence ongoing streaming video generation. Experimental results demonstrate that our method produces temporally coherent and semantically faithful instructional videos that accurately follow complex, multi-step task descriptions.
- Abstract(参考訳): インストラクショナルビデオ生成は、テキスト記述から手続き的活動の一貫性のあるデモを合成することを目的とした、新たな課題である。
このような能力は、コンテンツ作成、教育、人間とAIの相互作用に幅広い影響を及ぼすが、既存のビデオ拡散モデルは、複数のアクションステップの長いシーケンスにわたる時間的一貫性と制御性を維持するのに苦労している。
SneakPeekは拡散に基づく自己回帰フレームワークで、初期画像と構造化されたテキストプロンプトに基づいて、正確に段階的に動画を生成するように設計されている。
提案手法は,(1)因果モデルが次のフレームの予測と将来のキーフレームの予測を学習する予測因果適応,(2)推定時の露出バイアス問題に対処する2領域KVキャッシュ方式による将来誘導自己強制,(3)マルチプロンプト条件付け,の3つを導入している。
これらのコンポーネントは同時に、時間的ドリフトを緩和し、動きの一貫性を保ち、将来の即時更新が進行中のストリーミングビデオ生成に動的に影響を与えるインタラクティブなビデオ生成を可能にする。
実験の結果,複雑な多段階のタスク記述を正確に追従する時間的コヒーレントかつ意味論的忠実な指導ビデオが得られた。
関連論文リスト
- Show Me: Unifying Instructional Image and Video Generation with Diffusion Models [16.324312147741495]
画像の操作と映像の予測を可能にする統一的なフレームワークを提案する。
構造的忠実度と時間的コヒーレンスを改善するために,構造的および運動的整合性報酬を導入する。
多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,専門家モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-21T23:24:28Z) - AI Powered High Quality Text to Video Generation with Enhanced Temporal Consistency [0.0]
我々は,高忠実度テキストとビデオ合成のための時間的拡散認識モデルと合成シーン理解を統合した,新しい階層型フレームワークMOVAIを提案する。
標準ベンチマークの実験では、MOVAIの最先端性能、LPIPSの15.3%、FVDの12.7%、既存手法の18.9%の改善が示されている。
論文 参考訳(メタデータ) (2025-10-30T18:46:59Z) - A Challenge to Build Neuro-Symbolic Video Agents [5.243155799248514]
ニューロシンボリック・パースペクティブは、どのように解釈可能性を高め、構造化推論を可能にし、システム行動に対するより強力な保証を提供するかを示す。
我々は,次世代のインテリジェントビデオエージェントの開発という,研究コミュニティに大きな課題を提示する。
これらの柱に対処することで、受動的知覚から、推論、予測、行動を行うインテリジェントなビデオエージェントへの移行が可能になります。
論文 参考訳(メタデータ) (2025-05-20T02:53:21Z) - Text2Story: Advancing Video Storytelling with Text Guidance [19.901781116843942]
本研究では、シーンとアクションプロンプトを統合し、動的にインスパイアされたプロンプトミキシングによってこれを実現できる新しいストーリーテリングフレームワークを提案する。
本研究では,各拡散時間におけるシーンおよびアクションプロンプトの影響を適応的にバランスさせる動的インフォームドプロンプト重み付け機構を提案する。
動きの連続性をさらに向上するために、ハイレベルなアクション意味論をブレンディングプロセスにエンコードするために、セマンティックアクション表現を組み込む。
論文 参考訳(メタデータ) (2025-03-08T19:04:36Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。