論文の概要: Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study
- arxiv url: http://arxiv.org/abs/2603.06672v1
- Date: Tue, 03 Mar 2026 07:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.703903
- Title: Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study
- Title(参考訳): 映像から映像へのセマンティックノイズ初期化は伝達されるか?
- Authors: Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang,
- Abstract要約: 時間結合は、テキスト・トゥ・ビデオ(T2V)生成において、余分な自由度と不安定性をもたらす可能性がある。
フリーズされたVideoCrafterスタイルのT2V拡散バックボーンと100プロンプト上のVBenchを用いて,標準ガウス雑音に対するセマンティックノイズ初期化をベンチマークする。
時間的関連次元について小さな正の傾向を観察するが、95%の信頼区間は0を含む(p0.17)。
- 参考スコア(独自算出の注目度): 0.7166401281812406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic noise initialization has been reported to improve robustness and controllability in image diffusion models. Whether these gains transfer to text-to-video (T2V) generation remains unclear, since temporal coupling can introduce extra degrees of freedom and instability. We benchmark semantic noise initialization against standard Gaussian noise using a frozen VideoCrafter-style T2V diffusion backbone and VBench on 100 prompts. Using prompt-level paired tests with bootstrap confidence intervals and a sign-flip permutation test, we observe a small positive trend on temporal-related dimensions; however, the 95 percent confidence interval includes zero (p ~ 0.17) and the overall score remains on par with the baseline. To understand this outcome, we analyze the induced perturbations in noise space and find patterns consistent with weak or unstable signal. We recommend prompt-level paired evaluation and noise-space diagnostics as standard practice when studying initialization schemes for T2V diffusion.
- Abstract(参考訳): 画像拡散モデルのロバスト性や制御性を改善するために, セマンティックノイズの初期化が報告されている。
これらがテキスト・ツー・ビデオ(T2V)生成に移行するかどうかは、時間的結合が追加の自由度と不安定性をもたらす可能性があるため、まだ不明である。
フリーズされたVideoCrafterスタイルのT2V拡散バックボーンと100プロンプト上のVBenchを用いて,標準ガウス雑音に対するセマンティックノイズ初期化をベンチマークする。
ブートストラップの信頼区間とサインフリップの置換間隔を併用したプロンプトレベルのペアテストを用いて、時間的関係次元の小さな正の傾向を観察するが、95%の信頼区間はゼロ(p〜0.17)を含み、総合スコアはベースラインと同等である。
この結果を理解するために、ノイズ空間の誘導摂動を分析し、弱い信号や不安定な信号と整合したパターンを見出す。
本稿では,T2V拡散の初期化手法の研究において,標準手法として,プロンプトレベルのペア評価とノイズ空間診断を推奨する。
関連論文リスト
- Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability [9.133729396364952]
拡散に基づく画像生成モデルは、反復的復調によって高忠実度画像を生成するが、記憶に弱いままである。
最近の暗記検出法は主に暗記の指標としてスコア差のノルムに基づいている。
等方性ノルムと異方性アライメントを統合することで,記憶度検出尺度を開発した。
論文 参考訳(メタデータ) (2026-01-28T14:29:42Z) - EDIT: Early Diffusion Inference Termination for dLLMs Based on Dynamics of Training Gradients [6.736735746633275]
拡散に基づく大規模言語モデル (dLLMs) は反復的妄想を通じてトークン生成を洗練させるが、全てのステップが完了する前に答えは安定することが多い。
本稿では,トレーニング時推論に対する十分な推論安定性が検出された場合に,適応的にデノイングを停止する推論時基準であるEDITを提案する。
論文 参考訳(メタデータ) (2025-11-29T23:47:47Z) - Catching Contamination Before Generation: Spectral Kill Switches for Agents [0.0]
本稿では,フォワードパスのみを使用してエージェント実行中にバイナリ受信や拒否信号を出力する診断手法を提案する。
この手法は、注意によって誘導されるトークングラフを分析し、初期層における2つのスペクトル統計量を計算する。
ベイズ感覚では, 高頻度エネルギー比の1つの閾値が, 文脈の不整合を検出するのに最適であることを示す。
論文 参考訳(メタデータ) (2025-11-08T02:24:05Z) - Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models [57.474294329887236]
拡散大言語モデル (dLLMs) は反復的 denoising を通じてテキストを生成する。
現在のデコード戦略は、最終的な出力に有利なリッチな中間予測を捨てている。
時間的整合性を利用する2つの相補的手法を導入する。
論文 参考訳(メタデータ) (2025-08-12T17:59:57Z) - Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。
この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文 参考訳(メタデータ) (2025-06-11T06:01:39Z) - Noise Augmented Fine Tuning for Mitigating Hallucinations in Large Language Models [1.0579965347526206]
大規模言語モデル(LLM)は、しばしば不正確な、または誤解を招くコンテンツ・ハロシンを生成する。
noise-Augmented Fine-Tuning (NoiseFiT) は適応ノイズ注入を利用してモデルロバスト性を高める新しいフレームワークである。
NoiseFiTは、動的にスケールしたガウス雑音を用いて、高SNR(より堅牢)または低SNR(潜在的に過正規化)と同定された層を選択的に摂動する。
論文 参考訳(メタデータ) (2025-04-04T09:27:19Z) - Unsupervised CP-UNet Framework for Denoising DAS Data with Decay Noise [13.466125373185399]
分散音響センサ(DAS)技術は光ファイバーケーブルを利用して音響信号を検出する。
DASは、ジオフォンよりも低い信号対雑音比(S/N)を示す。
これにより、S/Nの低減は、反転と解釈を含むデータ解析に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-19T03:09:49Z) - Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。