論文の概要: Oracle Noise: Faster Semantic Spherical Alignment for Interpretable Latent Optimization
- arxiv url: http://arxiv.org/abs/2604.23540v1
- Date: Sun, 26 Apr 2026 05:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.41947
- Title: Oracle Noise: Faster Semantic Spherical Alignment for Interpretable Latent Optimization
- Title(参考訳): Oracleのノイズ: 解釈可能な遅延最適化のためのより高速なセマンティック球面アライメント
- Authors: Haosen Li, Wenshuo Chen, Lei Wang, Shaofeng Liang, Haozhe Jia, Yutao Yue,
- Abstract要約: Oracle Noiseは、ハイパースフィアに限られるセマンティック駆動の最適化としてノイズを緩和するゼロショットフレームワークである。
ブラックボックスモデルなしでセマンティックアライメントと優れた美学を著しく加速する。
人間の好みの指標(HPSv2、ImageReward)、セマンティックアライメント(CLIP Score)、サンプルの多様性など、いずれも厳格な2秒の最適化予算内で、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 5.814544128372275
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image diffusion models have achieved remarkable generative capabilities, yet accurately aligning complex textual prompts with synthesized layouts remains an ongoing challenge. In these models, the initial Gaussian noise acts as a critical structural seed dictating the macroscopic layout. Recent online optimization and search methods attempt to refine this noise to enhance text-image alignment. However, relying on unconstrained Euclidean gradient ascent mathematically inflates the latent norm and destroys the standard Gaussian prior, causing severe visual artifacts like color over-saturation. Furthermore, these methods suffer from inefficient semantic routing and easily fall into the ``reward hacking'' trap of external proxy models. To address these intertwined bottlenecks, we propose Oracle Noise, a zero-shot framework reframing noise initialization as semantic-driven optimization strictly confined to a Riemannian hypersphere. Instead of relying on complex external parsers, we directly identify the most impactful structural words in the prompt to efficiently route optimization energy. By updating the noise strictly along a spherical path, we mathematically preserve the original Gaussian distribution. This geometric constraint eliminates norm inflation and unlocks aggressive step sizes for rapid convergence. Extensive experiments demonstrate that Oracle Noise significantly accelerates semantic alignment and achieves superior aesthetics without black-box models. It completely mitigates Euclidean-induced degradation, establishing state-of-the-art performance across human preference metrics (e.g., HPSv2, ImageReward), semantic alignment (CLIP Score), and sample diversity, all within a strict 2-second optimization budget.
- Abstract(参考訳): テキストから画像への拡散モデルは、優れた生成能力を達成したが、複雑なテキストプロンプトと合成レイアウトを正確に整合させることは、現在も進行中の課題である。
これらのモデルでは、初期ガウスノイズは、マクロ的な配置を規定する重要な構造的シードとして機能する。
最近のオンライン最適化と検索手法は、このノイズを改良し、テキスト画像のアライメントを強化しようとしている。
しかし、制約のないユークリッド勾配に依存すると、数学的に潜在ノルムが膨らみ、標準ガウスの先行を壊し、色過飽和のような深刻な視覚的アーティファクトが生じる。
さらに、これらのメソッドは非効率なセマンティックルーティングに悩まされ、外部プロキシモデルの‘reward Hacking’トラップに容易に陥る。
これらのボトルネックに対処するため、我々は、リーマン超球面に限定した意味駆動最適化としてノイズ初期化をフレーミングするゼロショットフレームワークであるOracle Noiseを提案する。
複雑な外部パーサに頼る代わりに、最適化エネルギーを効率的にルーティングするプロンプトの中で最も影響の大きい構造的単語を直接特定する。
球面経路に沿って厳密にノイズを更新することにより、元のガウス分布を数学的に保存する。
この幾何学的制約はノルムのインフレーションを排除し、急激な収束のために攻撃的なステップサイズを解放する。
大規模な実験では、Oracle Noiseはセマンティックアライメントを著しく加速し、ブラックボックスモデルなしで優れた美学を達成している。
Euclideanによる劣化を完全に軽減し、人間の好み(例えば、HPSv2、ImageReward)、セマンティックアライメント(CLIPスコア)、サンプルの多様性など、最先端のパフォーマンスを確立する。
関連論文リスト
- Spatial-Spectral Adaptive Fidelity and Noise Prior Reduction Guided Hyperspectral Image Denoising [11.513560890234864]
本稿では,雑音事前低減と空間-スペクトル適応忠実度項を統合する枠組みを提案する。
本枠組みでは,高速かつ堅牢な画素ワイドモデルと,代表係数の総変分正規化器を併用したモデルを構築した。
シミュレーションおよび実世界のデータセットの実験は、提案モデルが優れた騒音性能を達成することを示す。
論文 参考訳(メタデータ) (2026-04-14T11:27:23Z) - It's Never Too Late: Noise Optimization for Collapse Recovery in Trained Diffusion Models [80.53672733210111]
基本モデルの忠実さを保ちつつモード崩壊を緩和する,単純な雑音最適化の目的を示す。
実験により,騒音の最適化は生成品質と多様性の点で優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2025-12-31T19:47:49Z) - Second-order Optimization under Heavy-Tailed Noise: Hessian Clipping and Sample Complexity Limits [53.773695219320125]
重み付き雑音下での2階最適化の理論的理解に向けて第一歩を踏み出す。
勾配とヘッセン切断に基づく新しいアルゴリズムを導入し、基本限界にほぼ一致する高い確率上の境界を証明した。
論文 参考訳(メタデータ) (2025-10-12T16:36:54Z) - OptiPrune: Boosting Prompt-Image Consistency with Attention-Guided Noise and Dynamic Token Selection [0.0]
分布を考慮した初期ノイズ最適化と類似性に基づくトークンプルーニングを組み合わせた統合フレームワークを提案する。
Animal-Animalを含むベンチマークデータセットの実験では、OptiPruneは計算コストを大幅に削減し、最先端のプロンプトイメージの一貫性を達成している。
論文 参考訳(メタデータ) (2025-07-01T14:24:40Z) - RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS [79.15416002879239]
3D Gaussian Splattingは、ノベルビュー合成と3Dモデリングにおけるリアルタイム、フォトリアリスティックレンダリングにおいて大きな注目を集めている。
既存の手法は、過渡的なオブジェクトに影響されたシーンを正確にモデル化するのに苦労し、描画された画像のアーティファクトに繋がる。
2つの重要な設計に基づく堅牢なソリューションであるRobustSplatを提案する。
論文 参考訳(メタデータ) (2025-06-03T11:13:48Z) - Elucidating Subspace Perturbation in Zeroth-Order Optimization: Theory and Practice at Scale [33.38543010618118]
Zeroth-order (ZO) 最適化は、勾配ベースのバックプロパゲーション法に代わる有望な代替手段として登場した。
高次元性が主要なボトルネックであることを示し、サブスペースの摂動が勾配ノイズを減らし収束を加速させる方法について説明するために、テキストサブスペースアライメントの概念を導入する。
本稿では,ブロック座標降下法(MeZO-BCD)を用いた効率的なZO法を提案し,各ステップでパラメータのサブセットのみを摂動・更新する。
論文 参考訳(メタデータ) (2025-01-31T12:46:04Z) - Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization [27.508861002013358]
InitNOは、意味的に忠実な画像の初期ノイズを洗練させるパラダイムである。
戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。
厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。
論文 参考訳(メタデータ) (2024-04-06T14:56:59Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。