論文の概要: Restoring Initial Noise Sensitivity in Text-to-Image Distillation via Geometric Alignment
- arxiv url: http://arxiv.org/abs/2606.01651v1
- Date: Mon, 01 Jun 2026 03:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.963768
- Title: Restoring Initial Noise Sensitivity in Text-to-Image Distillation via Geometric Alignment
- Title(参考訳): 幾何学的アライメントによるテキスト・画像蒸留における初期雑音感度の回復
- Authors: Huayang Huang, Ruoyu Wang, Jinhui Zhao, Wei Deng, Daiguo Zhou, Jian Luan, Yu Wu, Ye Zhu,
- Abstract要約: 生成蒸留はテキスト・トゥ・イメージ(T2I)生成を著しく加速する。
既存の手法は主に効率と出力の忠実さを最適化し、しばしば元の軌道の臨界特性を無視する。
本稿では,教師モデルと学生モデルの局所的機能挙動を整合させる感度保存フレームワークであるGeometry-Aware Distillation (GAD)を提案する。
- 参考スコア(独自算出の注目度): 21.470643191300592
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative distillation significantly accelerates text-to-image (T2I) generation by compressing multi-step trajectories into few-step student models while preserving perceptual quality. However, existing methods primarily optimize efficiency and output fidelity, often neglecting critical properties of the original trajectory. In this work, we identify a key missing property: sensitivity to initial noise, whose degradation impairs downstream control methods relying on noise-based optimization and manipulation. We trace this issue to standard distillation objectives that enforce pointwise output alignment, inadvertently flattening the input-output landscape and suppressing the teacher's local geometric structure. To address this, we propose Geometry-Aware Distillation (GAD), a sensitivity-preserving framework that aligns the local functional behavior of teacher and student models. Specifically, GAD matches Jacobian-vector products with respect to input noise, enabling the student to reproduce the teacher's differential response to perturbations. Extensive experiments across multiple T2I paradigms and noise-driven control tasks demonstrate that GAD significantly restores sensitivity and improves diversity while maintaining high visual fidelity. Code is available at https://github.com/Hannah1102/GAD.
- Abstract(参考訳): 生成蒸留は、知覚品質を維持しつつ、多段階の軌跡を数段階の学生モデルに圧縮することにより、テキスト・ツー・イメージ(T2I)生成を著しく加速させる。
しかし、既存の手法は主に効率と出力の忠実さを最適化し、しばしば元の軌道の臨界特性を無視する。
本研究では,初期雑音に対する感度の低下が,雑音に基づく最適化と操作に依存する下流制御手法を損なうという,重要な欠点を同定する。
我々は,この問題を,点方向の出力アライメントを強制し,入力出力のランドスケープを不注意に平坦化し,教師の局所的幾何学的構造を抑える,標準的な蒸留目標に追従する。
そこで本研究では,教師モデルと学生モデルの局所的機能挙動を整合させる感度保存フレームワークであるGeometry-Aware Distillation (GAD)を提案する。
特に、GADは入力ノイズに関してヤコビアンベクトル積と一致し、教師の摂動に対する差動応答を再現することができる。
複数のT2Iパラダイムとノイズ駆動制御タスクにわたる広範囲な実験により、GADは感度を著しく回復し、高視力を維持しながら多様性を向上することを示した。
コードはhttps://github.com/Hannah1102/GADで入手できる。
関連論文リスト
- CAdam: Context-Adaptive Moment Estimation for 3D Gaussian Densification in Generative Distillation [3.4998703934432682]
密度ジレンマを解くために、文脈適応モーメント推定(CAdam)を導入する。
Cadamは、標準密度と比較してガウスの数を85%から97%削減し、全体的な同等の品質を保っている。
これらの結果から, 信号認識密度制御は, 最適化に基づく生成蒸留におけるメモリ効率の向上に有効であることがわかった。
論文 参考訳(メタデータ) (2026-05-20T08:08:39Z) - Degradation-Aware Adaptive Context Gating for Unified Image Restoration [57.06559692537862]
単一モデルを用いた統一画像復元は、多種多様な劣化によるタスク干渉に直面することが多い。
DACG-IRは,劣化特性を明瞭に認識し,特徴表現を動的に変調する。
DACG-IRは、単一タスク、オールインワン、悪天候除去、複合劣化設定において最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-05-02T04:18:43Z) - AIFIND: Artifact-Aware Interpreting Fine-Grained Alignment for Incremental Face Forgery Detection [23.80607349547519]
AIFIND, Artifact-Aware Interpreting Fine-Grained Alignment for Incremental Face Forgery Detectionを提案する。
セマンティックアンカーを使用して、漸進的な学習を安定化します。
論文 参考訳(メタデータ) (2026-04-17T16:17:12Z) - V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising [65.5867130156805]
統合JTフレームワークにおける視覚的コデノゲーションの体系的研究であるV-Coについて述べる。
本研究は,視覚的コデノジングを効果的に行うための4つの重要な要素を明らかにする。
V-Coは、基礎となる画素空間拡散ベースラインと強い前の画素拡散法より優れている。
論文 参考訳(メタデータ) (2026-03-17T17:01:54Z) - On the Learning Dynamics of Two-layer Linear Networks with Label Noise SGD [93.70725920710208]
ラベル雑音による勾配降下の学習力学について検討する。
遅延からリッチな体制への移行を駆動する上で,ラベルノイズが重要な役割を担っていることを強調する。
これらの知見をSAM(Sharpness-Aware Minimization)に拡張し、ラベルノイズSGDを規定する原理がより広範な最適化アルゴリズムにも適用可能であることを示す。
論文 参考訳(メタデータ) (2026-03-11T04:26:54Z) - Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers [8.989774165042542]
従来の画像復調モデルは, 環境要因とノイズパターンの急激な相関関係を不注意に学習する。
本稿ではTCD-Net(Teacher-Guided Causal Disentanglement Network)を提案する。
大規模な実験により、TCD-Netは、複数のベンチマークにおいて、忠実さと効率の両方で、メインストリームのメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-03-01T15:04:37Z) - TIP: Resisting Gradient Inversion via Targeted Interpretable Perturbation in Federated Learning [8.156452885913108]
フェデレートラーニング(FL)は、データの局所性を維持しながら協調的なモデルトレーニングを促進する。
勾配の交換により、システムはグラディエント・インバージョン・アタック(GIAs)に弱い。
本稿では、モデル解釈可能性と周波数領域解析を統合する新しい防御フレームワークTIPを提案する。
論文 参考訳(メタデータ) (2026-02-12T06:32:49Z) - DoPE: Denoising Rotary Position Embedding [60.779039511252584]
トランスフォーマーモデルにおける回転位置埋め込み(RoPE)は、長さを弱める固有の限界を持つ。
ノイズのある特徴写像として位置符号化を用いたアテンションマップを再解釈し、位置補間ページ(DoPE)を提案する。
DoPEは、トランカテッド行列エントロピーに基づくトレーニング不要な手法であり、特徴写像における外乱周波数帯域を検出する。
論文 参考訳(メタデータ) (2025-11-12T09:32:35Z) - Rethinking Contrastive Learning in Graph Anomaly Detection: A Clean-View Perspective [54.605073936695575]
グラフ異常検出は、Webセキュリティやファイナンシャル不正検出などの分野で広く応用されているグラフベースのデータにおいて、異常なパターンを特定することを目的としている。
既存の手法は対照的な学習に依存しており、ノードとその局所部分グラフの間のより低い類似性は異常を示すと仮定する。
干渉エッジの存在は、対照的な学習過程を損なう破壊的なノイズをもたらすため、この仮定を無効にする。
コントラスト学習プロセスにおいて重要な干渉源を特定するために,複数スケールの異常認識モジュールを含むクリーンビュー拡張グラフ異常検出フレームワーク(CVGAD)を提案する。
論文 参考訳(メタデータ) (2025-05-23T15:05:56Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Degradation-Noise-Aware Deep Unfolding Transformer for Hyperspectral
Image Denoising [9.119226249676501]
ハイパースペクトル画像(HSI)は、帯域幅が狭いため、ノイズが多いことが多い。
HSIデータキューブのノイズを低減するため、モデル駆動型と学習型の両方の復調アルゴリズムが提案されている。
本稿では,これらの問題に対処するDNA-Net(Degradation-Noise-Aware Unfolding Network)を提案する。
論文 参考訳(メタデータ) (2023-05-06T13:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。