論文の概要: Fitting Image Diffusion Models on Video Datasets
- arxiv url: http://arxiv.org/abs/2509.03794v1
- Date: Thu, 04 Sep 2025 01:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.00561
- Title: Fitting Image Diffusion Models on Video Datasets
- Title(参考訳): ビデオデータセット上の画像拡散モデル
- Authors: Juhun Lee, Simon S. Woo,
- Abstract要約: 本稿では,連続ビデオフレームに存在する時間的帰納バイアスを利用して拡散訓練を改善する,シンプルで効果的なトレーニング戦略を提案する。
本手法はHandCoデータセット上で評価し,手動物体間相互作用が高密度時間的コヒーレンスを示す。
- 参考スコア(独自算出の注目度): 30.688877034764474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image diffusion models are trained on independently sampled static images. While this is the bedrock task protocol in generative modeling, capturing the temporal world through the lens of static snapshots is information-deficient by design. This limitation leads to slower convergence, limited distributional coverage, and reduced generalization. In this work, we propose a simple and effective training strategy that leverages the temporal inductive bias present in continuous video frames to improve diffusion training. Notably, the proposed method requires no architectural modification and can be seamlessly integrated into standard diffusion training pipelines. We evaluate our method on the HandCo dataset, where hand-object interactions exhibit dense temporal coherence and subtle variations in finger articulation often result in semantically distinct motions. Empirically, our method accelerates convergence by over 2$\text{x}$ faster and achieves lower FID on both training and validation distributions. It also improves generative diversity by encouraging the model to capture meaningful temporal variations. We further provide an optimization analysis showing that our regularization reduces the gradient variance, which contributes to faster convergence.
- Abstract(参考訳): 画像拡散モデルは、独立にサンプリングされた静的画像に基づいて訓練される。
これは生成モデリングにおける岩盤タスクプロトコルであるが、静的スナップショットのレンズを通して時空間をキャプチャすることは設計上は情報不足である。
この制限は収束を遅くし、分布範囲を限定し、一般化を減少させる。
本研究では,連続ビデオフレームに存在する時間的帰納バイアスを利用して拡散訓練を改善する,シンプルで効果的なトレーニング戦略を提案する。
特に,提案手法はアーキテクチャの変更を必要とせず,標準拡散訓練パイプラインにシームレスに統合可能である。
本手法をHandCoデータセット上で評価したところ,手-物体間相互作用は高密度な時間的コヒーレンスを示し,指の関節の微妙な変化は意味的に異なる動作をもたらすことが多かった。
実験的に,本手法は2$\text{x}$以上の収束を高速化し,トレーニングと検証の両方において低いFIDを実現する。
また、有意義な時間変動を捉えるようモデルに促すことにより、生成の多様性も向上する。
さらに、正規化が勾配分散を減少させ、より高速な収束に寄与することを示す最適化分析も提供する。
関連論文リスト
- InstaRevive: One-Step Image Enhancement via Dynamic Score Matching [66.97989469865828]
InstaReviveは、強力な生成能力を活用するためにスコアベースの拡散蒸留を利用する画像強調フレームワークである。
私たちのフレームワークは、さまざまな課題やデータセットにまたがって、高品質で視覚的に魅力的な結果を提供します。
論文 参考訳(メタデータ) (2025-04-22T01:19:53Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Adaptive Non-Uniform Timestep Sampling for Diffusion Model Training [4.760537994346813]
データ分布が複雑化するにつれて、収束のためのトレーニング拡散モデルがますます複雑になる。
より重要な時間ステップを優先する一様でない時間ステップサンプリング手法を提案する。
提案手法は, 各種データセット, スケジューリング戦略, 拡散アーキテクチャにまたがるロバストな性能を示す。
論文 参考訳(メタデータ) (2024-11-15T07:12:18Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - SpotDiffusion: A Fast Approach For Seamless Panorama Generation Over Time [7.532695984765271]
生成モデルを用いて高解像度画像を生成する新しい手法を提案する。
提案手法は,時間とともに重なりのないデノベーションウィンドウをシフトさせ,一段階のシームが次回修正されるようにする。
提案手法は計算効率の向上や推論時間の高速化など,いくつかの重要な利点を提供する。
論文 参考訳(メタデータ) (2024-07-22T09:44:35Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。