論文の概要: QSilk: Micrograin Stabilization and Adaptive Quantile Clipping for Detail-Friendly Latent Diffusion
- arxiv url: http://arxiv.org/abs/2510.15761v1
- Date: Fri, 17 Oct 2025 15:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.692563
- Title: QSilk: Micrograin Stabilization and Adaptive Quantile Clipping for Detail-Friendly Latent Diffusion
- Title(参考訳): QSilk: 微粒化と微粒化への適応的量子クリッピング
- Authors: Denis Rychkovskiy,
- Abstract要約: QSilkは、遅延拡散のための軽量で常時オンの安定化層である。
AQClipは許容値の回廊を各領域に適応させる。
トレーニングや微調整を必要とせず、最小限のユーザコントロールを公開する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present QSilk, a lightweight, always-on stabilization layer for latent diffusion that improves high-frequency fidelity while suppressing rare activation spikes. QSilk combines (i) a per-sample micro clamp that gently limits extreme values without washing out texture, and (ii) Adaptive Quantile Clip (AQClip), which adapts the allowed value corridor per region. AQClip can operate in a proxy mode using local structure statistics or in an attention entropy guided mode (model confidence). Integrated into the CADE 2.5 rendering pipeline, QSilk yields cleaner, sharper results at low step counts and ultra-high resolutions with negligible overhead. It requires no training or fine-tuning and exposes minimal user controls. We report consistent qualitative improvements across SD/SDXL backbones and show synergy with CFG/Rescale, enabling slightly higher guidance without artifacts.
- Abstract(参考訳): そこで我々はQSilkを提案する。QSilkは遅延拡散のための軽量で常に安定な層であり、周波数の忠実度を向上し、稀なアクティベーションスパイクを抑制する。
QSilk Combins
一 テクスチャを洗い流さずに極度の値に優しく制限するサンプル単位のマイクロクランプ
(ii)AQClip(Adaptive Quantile Clip)は、領域ごとの許容値回廊に適応する。
AQClipは、ローカル構造統計を用いてプロキシモードまたはアテンションエントロピー誘導モード(モデル信頼度)で動作することができる。
CADE 2.5レンダリングパイプラインに統合されたQSilkは、低ステップ数でのよりクリーンでシャープな結果と、無視できるオーバーヘッドを伴う超高解像度を実現する。
トレーニングや微調整を必要とせず、最小限のユーザコントロールを公開する。
SD/SDXLバックボーン間の一貫した質的改善を報告し,CFG/Rescaleとの相乗効果を示す。
関連論文リスト
- SALIENT: Frequency-Aware Paired Diffusion for Controllable Long-Tail CT Detection [6.673878172809982]
制御可能なCT拡張のためのマスク条件のウェーブレットドメイン拡散フレームワークであるSALIENTを紹介する。
SALIENTは、画素空間を飾る代わりに、離散ウェーブレット係数上の構造拡散を行い、高周波構造の詳細から低周波輝度を分離する。
3D VAEは多様なボリューム障害マスクを生成し、セミ教師は下流マスク誘導検出のためのペアスライスレベル擬似ラベルを生成する。
論文 参考訳(メタデータ) (2026-02-26T19:12:15Z) - LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs [61.06744611795341]
医用視覚言語モデル(VLM)は医用画像の強力なゼロショット認識器である。
本研究では,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ(texttttextbfLATA,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ)を提案する。
texttttextbfLATAは交換性を損なうことなくゼロショット予測をシャープにする。
論文 参考訳(メタデータ) (2026-02-19T16:45:38Z) - Spectral Gating Networks [65.9496901693099]
我々は、フィードフォワードネットワークに周波数リッチな表現性を導入するために、スペクトルゲーティングネットワーク(SGN)を導入する。
SGNは、標準活性化経路をコンパクトなスペクトル経路と学習可能なゲートで拡張し、安定したベース動作からモデルを開始することができる。
計算予算に匹敵する精度と効率のトレードオフを継続的に改善する。
論文 参考訳(メタデータ) (2026-02-07T20:00:49Z) - Towards Compact and Robust DNNs via Compression-aware Sharpness Minimization [7.641622965415444]
Compression-aware ShArpness Minimization (C-SAM)は、シャープネス認識学習をパラメータ摂動からマスク摂動に移行するフレームワークである。
C-SAMは、強いベースラインよりも高い信頼性のロバスト性を一貫して達成し、最大42%の改善と、対応する未実行モデルに匹敵するタスク精度の維持を実現している。
論文 参考訳(メタデータ) (2026-01-28T06:49:32Z) - PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs [57.790910044227935]
ビデオLLMは時間的不整合に悩まされ、フレームタイミングの小さなシフトは注意をそらすことができ、関連するフレームを抑えることができる。
本稿では, 位相アグリゲード平滑化(PAS)について述べる。これは, 頭部に小さな反対位相オフセットを適用して, 出力を集約する学習自由機構である。
解析の結果,RoPE回転ロジットは,時間核でスケールしたコンテントドット積として近似でき,このカーネルを滑らかにすることで,小さな時間シフトに対する注意のリプシッツ安定性が得られ,マルチフェーズ平均化は,Nyquist-valid サンプリング下での頭当たりスペクトルを保ちながら高周波リップルを減衰させることがわかった。
論文 参考訳(メタデータ) (2025-11-14T05:56:47Z) - CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models [0.0]
SD/SDXL遅延拡散モデルのためのサンプルレベルガイダンススタックであるFDG 2.5(Comfy Adaptive Detail Enhancer)を紹介する。
ZeResFDGは、(i)誘導信号の低周波成分と高周波成分を再重み付けする周波数分離誘導、(ii)誘導予測のサンプルごとの大きさと正の分岐に一致するエネルギー再スケーリング、(iii)非条件方向と平行な成分を除去するゼロ投影を統一する。
SD/SDXLサンプリング装置全体では、ZeResCADEはシャープネスを改善し、順応し、調整することなく適度なスケールで制御する。
論文 参考訳(メタデータ) (2025-10-14T19:57:58Z) - Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化は損失関数に逆符号を持つ報酬項を導入する。
スペクトル安全性条件と信頼領域制約を定式化する。
我々は、プロジェクション演算子と勾配クリッピングを組み合わせた軽量な安全ガードを設計し、安定した介入を保証する。
論文 参考訳(メタデータ) (2025-08-24T15:34:17Z) - Introducing Fractional Classification Loss for Robust Learning with Noisy Labels [2.312414367096445]
適応的ロバスト損失であるフラクタル分類損失 (FCL) を導入し, トレーニング中, ラベルノイズに対するロバストさを自動的に校正する。
FCLは手動のハイパーパラメータチューニングを必要とせずに最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-08-08T14:20:52Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - Micro-splatting: Multistage Isotropy-informed Covariance Regularization Optimization for High-Fidelity 3D Gaussian Splatting [1.5582756275568836]
マイクロスプレイティング(Micro-Splatting)は、モデル複雑性を大幅に削減しつつ、視覚的詳細を保存する、統合されたトレーニング中のパイプラインである。
4つのオブジェクト中心のベンチマークでは、Micro-Splattingはスプレート数とモデルサイズを60%まで削減し、トレーニングを20%短縮する。
その結果、マイクロスプレイティングは、単一で効率的でエンドツーエンドのフレームワークにおいて、コンパクト性と高忠実性の両方を提供することを示した。
論文 参考訳(メタデータ) (2025-04-08T07:15:58Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文 参考訳(メタデータ) (2024-02-23T08:05:23Z) - Multi-scale Diffusion Denoised Smoothing [79.95360025953931]
ランダムな平滑化は、大規模モデルに敵対的ロバスト性を提供する、いくつかの具体的なアプローチの1つになっている。
本報告では, 分割平滑化におけるロバスト性と精度との現在のトレードオフに対処するスケーラブルな手法を提案する。
提案手法と拡散微細調整を併用したマルチスケール平滑化手法により,高騒音レベルで高い信頼性のロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T17:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。