論文の概要: DiffusionBrowser: Interactive Diffusion Previews via Multi-Branch Decoders
- arxiv url: http://arxiv.org/abs/2512.13690v1
- Date: Mon, 15 Dec 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.834745
- Title: DiffusionBrowser: Interactive Diffusion Previews via Multi-Branch Decoders
- Title(参考訳): DiffusionBrowser: マルチブランチデコーダによる対話型拡散プレビュー
- Authors: Susung Hong, Chongjian Ge, Zhifei Zhang, Jui-Hsien Wang,
- Abstract要約: DiffusionBrowserはモデルに依存しない軽量デコーダフレームワークである。
ユーザーはデノナイジングプロセス中に任意の時点のプレビューをインタラクティブに生成できる。
- 参考スコア(独自算出の注目度): 32.1804288887517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video diffusion models have revolutionized generative video synthesis, but they are imprecise, slow, and can be opaque during generation -- keeping users in the dark for a prolonged period. In this work, we propose DiffusionBrowser, a model-agnostic, lightweight decoder framework that allows users to interactively generate previews at any point (timestep or transformer block) during the denoising process. Our model can generate multi-modal preview representations that include RGB and scene intrinsics at more than 4$\times$ real-time speed (less than 1 second for a 4-second video) that convey consistent appearance and motion to the final video. With the trained decoder, we show that it is possible to interactively guide the generation at intermediate noise steps via stochasticity reinjection and modal steering, unlocking a new control capability. Moreover, we systematically probe the model using the learned decoders, revealing how scene, object, and other details are composed and assembled during the otherwise black-box denoising process.
- Abstract(参考訳): ビデオ拡散モデルは生成ビデオ合成に革命をもたらしたが、不正確で遅く、世代によって不透明になりかねない。
本研究では,モデルに依存しない軽量デコーダフレームワークであるDiffusionBrowserを提案する。
我々のモデルは、RGBやシーン内在を4$\times$ Real-times(4秒のビデオでは1秒未満)で含むマルチモーダルプレビュー表現を生成し、最終ビデオに一貫した外観と動きを伝達する。
トレーニングされたデコーダを用いて,確率リジェクションとモーダルステアリングにより,中間ノイズステップにおける生成を対話的に誘導し,新たな制御能力を開放できることが示される。
さらに,学習したデコーダを用いてモデルを体系的に探索し,その場合のシーン,オブジェクト,その他の詳細がどのように構成され,組み立てられるかを明らかにする。
関連論文リスト
- AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation [36.098738197088124]
本研究では,遅延ビデオ生成を高速化する拡散再利用モードネットワークを提案する。
初期のデノナイジングステップの粗いきめのノイズは、連続するビデオフレーム間で高い動きの一貫性を示す。
Mo博士は、慎重に設計された軽量なフレーム間の動きを取り入れることで、これらの粗いノイズを次のフレームに伝播させる。
論文 参考訳(メタデータ) (2024-09-19T07:50:34Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。
最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。
本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-14T14:01:03Z) - Multi-Stage Raw Video Denoising with Adversarial Loss and Gradient Mask [14.265454188161819]
低照度下で撮影した生映像を消音する学習型手法を提案する。
まず、畳み込みニューラルネットワーク(CNN)を用いて、隣接するフレームを現在のフレームに明示的にアライメントする。
次に、登録されたフレームを別のCNNを使って融合し、最終識別フレームを得る。
論文 参考訳(メタデータ) (2021-03-04T06:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。