論文の概要: Interactive Video Generation via Domain Adaptation
- arxiv url: http://arxiv.org/abs/2505.24253v1
- Date: Fri, 30 May 2025 06:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.80042
- Title: Interactive Video Generation via Domain Adaptation
- Title(参考訳): ドメイン適応によるインタラクティブビデオ生成
- Authors: Ishaan Rawal, Suryansh Kumar,
- Abstract要約: テキスト条件付き拡散モデルは高品質のビデオ生成のための強力なツールとして登場してきた。
近年の無訓練アプローチでは、軌道案内のための注意マスクが導入されているが、品質は低下することが多い。
これらの手法の2つの重要な障害モードを特定し、どちらもドメイン問題と解釈する。
- 参考スコア(独自算出の注目度): 7.397099215417549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-conditioned diffusion models have emerged as powerful tools for high-quality video generation. However, enabling Interactive Video Generation (IVG), where users control motion elements such as object trajectory, remains challenging. Recent training-free approaches introduce attention masking to guide trajectory, but this often degrades perceptual quality. We identify two key failure modes in these methods, both of which we interpret as domain shift problems, and propose solutions inspired by domain adaptation. First, we attribute the perceptual degradation to internal covariate shift induced by attention masking, as pretrained models are not trained to handle masked attention. To address this, we propose mask normalization, a pre-normalization layer designed to mitigate this shift via distribution matching. Second, we address initialization gap, where the randomly sampled initial noise does not align with IVG conditioning, by introducing a temporal intrinsic diffusion prior that enforces spatio-temporal consistency at each denoising step. Extensive qualitative and quantitative evaluations demonstrate that mask normalization and temporal intrinsic denoising improve both perceptual quality and trajectory control over the existing state-of-the-art IVG techniques.
- Abstract(参考訳): テキスト条件付き拡散モデルは高品質のビデオ生成のための強力なツールとして登場してきた。
しかし,物体軌跡などの動作要素をユーザが制御できるインタラクティブビデオ生成(IVG)の実現は依然として困難である。
近年の無訓練アプローチは、軌跡を導くために注意マスクを導入しているが、これは知覚の質を低下させることが多い。
これらの手法において、ドメインシフト問題と解釈する2つの重要な障害モードを特定し、ドメイン適応にインスパイアされた解決策を提案する。
まず,注意マスキングによる内的共変量変化の知覚的劣化を,事前訓練されたモデルが注意マスキングに対処するための訓練を受けていないためとみなす。
そこで本稿では,マスク正規化(マスク正規化)を提案する。
第二に、ランダムサンプリングされた初期ノイズがIVG条件に一致しない初期化ギャップに対処するため、各デノナイジングステップで時空間一貫性を強制する時間内拡散を導入する。
広汎な質的および定量的評価により、マスクの正規化と時間的内在性認知は、既存の最先端IVG技術に対する知覚的品質と軌道制御の両方を改善することが示されている。
関連論文リスト
- Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - On Denoising Walking Videos for Gait Recognition [10.905636016507994]
本稿では,新しい歩行認知手法であるDenoisingGaitを提案する。
創造できないもの、理解できないもの」という哲学にインスパイアされた私たちは、生成的拡散モデルに目を向ける。
DenoisingGaitは、ほとんどの場合、内部およびクロスドメイン評価において、新しいSoTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-24T08:17:34Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Dual Conditioned Motion Diffusion for Pose-Based Video Anomaly Detection [12.100563798908777]
コンピュータビジョン研究にはビデオ異常検出(VAD)が不可欠である。
既存のVADメソッドは、再構築ベースのフレームワークまたは予測ベースのフレームワークを使用する。
ポーズに基づくビデオ異常検出に対処し、Dual Conditioned Motion Diffusionと呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-23T01:31:39Z) - Frequency-Guided Diffusion Model with Perturbation Training for Skeleton-Based Video Anomaly Detection [43.49146665908238]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて不可欠だが複雑なオープンセットタスクである。
摂動トレーニングを用いた新しい周波数誘導拡散モデルを提案する。
2次元離散コサイン変換(DCT)を用いて、高周波(局所)と低周波(球状)の運動成分を分離する。
論文 参考訳(メタデータ) (2024-12-04T05:43:53Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。
特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。
拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文 参考訳(メタデータ) (2024-06-26T17:40:30Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。