論文の概要: GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2602.17200v1
- Date: Thu, 19 Feb 2026 09:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.9014
- Title: GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation
- Title(参考訳): GASS:テキスト・画像生成における多角性向上のための幾何学的球面サンプリング
- Authors: Ye Zhu, Kaleb S. Newman, Johannes F. Lutzeyer, Adriana Romero-Soriano, Michal Drozdzal, Olga Russakovsky,
- Abstract要約: セマンティックアライメントが高いにもかかわらず、現代のテキスト・ツー・イメージ(T2I)生成モデルは、与えられたプロンプトから多様な画像を合成するのに依然として苦労している。
本稿では,GASS(Geometry-Aware Spherical Smpling)を導入し,変化の素因と素因に依存しない要因の両方を明示的に制御することで多様性を高める。
凍結したT2Iバックボーンとベンチマークを用いた実験により,画像の忠実度とセマンティックアライメントに最小限の影響を伴って,アンタングル付き多様性向上の有効性が示された。
- 参考スコア(独自算出の注目度): 32.63174739701972
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite high semantic alignment, modern text-to-image (T2I) generative models still struggle to synthesize diverse images from a given prompt. This lack of diversity not only restricts user choice, but also risks amplifying societal biases. In this work, we enhance the T2I diversity through a geometric lens. Unlike most existing methods that rely primarily on entropy-based guidance to increase sample dissimilarity, we introduce Geometry-Aware Spherical Sampling (GASS) to enhance diversity by explicitly controlling both prompt-dependent and prompt-independent sources of variation. Specifically, we decompose the diversity measure in CLIP embeddings using two orthogonal directions: the text embedding, which captures semantic variation related to the prompt, and an identified orthogonal direction that captures prompt-independent variation (e.g., backgrounds). Based on this decomposition, GASS increases the geometric projection spread of generated image embeddings along both axes and guides the T2I sampling process via expanded predictions along the generation trajectory. Our experiments on different frozen T2I backbones (U-Net and DiT, diffusion and flow) and benchmarks demonstrate the effectiveness of disentangled diversity enhancement with minimal impact on image fidelity and semantic alignment.
- Abstract(参考訳): セマンティックアライメントが高いにもかかわらず、現代のテキスト・ツー・イメージ(T2I)生成モデルは、与えられたプロンプトから多様な画像を合成するのに依然として苦労している。
この多様性の欠如は、ユーザの選択を制限するだけでなく、社会的バイアスを増幅するリスクも引き起こす。
本研究では,幾何学レンズを用いてT2Iの多様性を向上する。
サンプルの相違性を高めるために,主にエントロピーに基づくガイダンスに頼っている既存の方法とは違って,Geometry-Aware Spherical Smpling (GASS)を導入し,即時依存と即時非依存の両方の変動源を明示的に制御することで多様性を高める。
具体的には,CLIP埋め込みにおける多様性尺度を,プロンプトに関連する意味的変化をキャプチャするテキスト埋め込みと,プロンプト非依存な変化(背景など)をキャプチャする識別直交方向という2つの直交方向を用いて分解する。
この分解に基づいて、GASSは、両方の軸に沿って生成された画像埋め込みの幾何学的射影拡大を増大させ、生成軌道に沿って拡張された予測を通じてT2Iサンプリングプロセスを導く。
異なる凍結したT2Iバックボーン(U-Net, DiT, 拡散, 流れ)とベンチマークによる実験により, 画像の忠実度やセマンティックアライメントに最小限の影響を伴って, 絡み合った多様性向上の有効性が示された。
関連論文リスト
- DiverseAR: Boosting Diversity in Bitwise Autoregressive Image Generation [22.400053095939402]
視覚的品質を犠牲にすることなく、画像の多様性を高める、原則的で効果的な方法であるDiverseARを紹介する。
具体的には、サンプリング中のバイナリ出力分布のシャープネスを動的に調整する適応ロジット分布スケーリング機構を導入する。
分散平滑化による電位忠実度損失を軽減するため,低信頼トークンのサンプリングを回避するエネルギーベース生成経路探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-12-02T16:54:36Z) - Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - Diverse Text-to-Image Generation via Contrastive Noise Optimization [60.48914865049489]
テキスト・ツー・イメージ(T2I)拡散モデルは高忠実度画像の生成において顕著な性能を示した。
既存のアプローチは通常、推論中に中間の潜伏状態やテキスト条件を最適化する。
本稿では,多様性問題に異なる視点から対処する簡易かつ効果的な手法であるContrastive Noise Optimizationを紹介する。
論文 参考訳(メタデータ) (2025-10-04T13:51:32Z) - Guiding Diffusion with Deep Geometric Moments: Balancing Fidelity and Variation [35.428991756584935]
本稿では,Deep Geometric Moments (DGM) を,学習前の幾何学的特徴とニュアンスをカプセル化した新しいガイダンスとして紹介する。
実験により,DGMは拡散画像生成における制御と多様性のバランスを効果的に保ち,拡散過程を制御するための柔軟な制御機構を実現できることが示された。
論文 参考訳(メタデータ) (2025-05-18T16:19:27Z) - MegaSR: Mining Customized Semantics and Expressive Guidance for Image Super-Resolution [76.30559905769859]
MegaSRは、カスタマイズされたブロックワイドセマンティクスと拡散ベースのISRのための表現的ガイダンスをマイニングする。
我々は,HEDエッジマップ,深度マップ,セグメンテーションマップを最も表現力のあるガイダンスとして実験的に同定した。
大規模な実験は、意味的豊かさと構造的整合性の観点からMegaSRの優位性を示す。
論文 参考訳(メタデータ) (2025-03-11T07:00:20Z) - Diverse Diffusion: Enhancing Image Diversity in Text-to-Image Generation [0.0]
画像の多様性をジェンダーや民族を超えて向上させる方法であるDiverse Diffusionを紹介した。
私たちのアプローチは、より包括的で代表的なAI生成アートの作成に寄与します。
論文 参考訳(メタデータ) (2023-10-19T08:48:23Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse
Text-to-Image Generation [7.781425222538382]
DiverGANは、自然言語による記述に従って、多様で、可塑性で、セマンティックに一貫性のある画像を生成するためのフレームワークである。
DiverGANは2つの新しいワードレベルアテンションモジュール、すなわちチャネルアテンションモジュール(CAM)とピクセルアテンションモジュール(PAM)を採用する。
条件適応型インスタンス-階層正規化(CAdaILN)を導入し、文の埋め込みから、形やテクスチャの変化量を柔軟に操作する言語的手がかりを実現する。
論文 参考訳(メタデータ) (2021-11-17T17:59:56Z) - Rethinking conditional GAN training: An approach using geometrically
structured latent manifolds [58.07468272236356]
条件付きGAN(cGAN)は、生成された出力の多様性の欠如などの重大な欠点に悩まされる。
本稿では,バニラcGANの多様性と視覚的品質を両立させる新しいトレーニング機構を提案する。
論文 参考訳(メタデータ) (2020-11-25T22:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。