論文の概要: CoFi-UCGen: Coarse-to-Fine Unsupervised Conditional Generation without Label Priors
- arxiv url: http://arxiv.org/abs/2606.05652v1
- Date: Thu, 04 Jun 2026 03:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.52626
- Title: CoFi-UCGen: Coarse-to-Fine Unsupervised Conditional Generation without Label Priors
- Title(参考訳): CoFi-UCGen:ラベルを優先しない粗大な非教師付き条件生成
- Authors: Shengxi Li, Zhaokun Hu, Ce Zheng, Mai Xu, Jingyuan Xia, Si Liu,
- Abstract要約: 教師なし条件付き画像生成(UCGen)は、手動でアノテートされたラベルに頼ることなく生成を制御することを目的としている。
本研究では,大域的意味論を微粒なバリエーションから明確に切り離す,より粗いUCGenフレームワーク(CoFi-UCGen)を提案する。
我々のCoFi-UCGenは、画像の品質、セマンティック一貫性、制御精度において、既存のUCGenメソッドよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 62.68085528259169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised conditional image generation (UCGen) aims to control generation without relying on manually annotated labels, yet remains challenging due to unstructured semantic representations across granularities. To address this, we propose a novel coarse-to-fine UCGen framework (CoFi-UCGen) that explicitly disentangles global semantics from fine-grained variations, which to the best of our knowledge, sets out the first successful attempt for both coarse- and fine-grained conditional generation without any labels. More specifically, we first propose the adversarial semantic reciprocal learning theory to ensure the semantic consistency and completeness between images and latent spaces. Based on the consistency, we propose the bit-codes to learn a structured coarse-grained latent space, and further prove distinct global semantics inherent from our bit-codes while preserving independent noise sampling for generation. Building upon these bit-codes, we establish a fine-grained semantic basis and introduce a hierarchical modulation mechanism in diffusion models, by enabling layer-wise injection from coarse conditions to progressively control fine-grained attributes during generation. Extensive experiments demonstrate that without any label priors or pre-trained feature extractors, our CoFi-UCGen consistently outperforms existing UCGen methods in terms of image quality, semantic consistency, and control accuracy, verifying the effectiveness of explicit coarse-to-fine semantic decomposition for the challenging UCGen task.
- Abstract(参考訳): 教師なし条件付き画像生成(UCGen)は、手動で注釈付けされたラベルに頼ることなく生成を制御することを目的としている。
そこで本研究では,大域的意味論を細粒度変化から明確に解き放つ新しいUCGenフレームワーク(CoFi-UCGen)を提案する。
具体的には,画像と潜伏空間間のセマンティック一貫性と完全性を確保するために,逆意味相互学習理論を提案する。
この一貫性に基づいて、構造化された粗粒の潜在空間を学習するためのビットコードを提案し、さらに、生成のための独立したノイズサンプリングを保ちながら、我々のビットコードに固有のグローバルセマンティクスを更に証明する。
これらのビットコードに基づいて、我々は細粒度セマンティックベースを確立し、拡散モデルに階層的な変調機構を導入し、粗い条件からの層ワイド注入を可能とし、生成中の微粒度属性を段階的に制御する。
我々のCoFi-UCGenは、ラベル先行や事前訓練された特徴抽出器を使わずに、画像品質、セマンティック一貫性、制御精度で既存のUCGenメソッドを一貫して上回り、難解なUCGenタスクに対して明確な粗いセマンティック分解の有効性を検証する。
関連論文リスト
- Guiding a Diffusion Model by Swapping Its Tokens [16.588428780117752]
本研究では,条件生成と非条件生成の両方に対して,CFGライクなガイダンスを実現するための簡単な手法を提案する。
鍵となるアイデアは、単純なトークンスワップ操作によって混乱した予測を生成することである。
提案手法はトークン潜伏剤を選択的に交換し,分解し,摂動の制御をきめ細かなものにする。
論文 参考訳(メタデータ) (2026-04-09T09:54:49Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - SSG: Scaled Spatial Guidance for Multi-Scale Visual Autoregressive Generation [10.295970926059812]
視覚自己回帰モデル(VAR)は次のスケールの予測を通じて画像を生成する。
実際には、この階層はキャパシティの制限と累積誤差によってモデルが粗いから細かい性質から逸脱してしまうため、推論時にドリフトすることができる。
本研究では,グローバルなコヒーレンスを維持しつつ,意図した階層に向けて生成を行うためのトレーニング不要な推論時間ガイダンスであるスケールド空間ガイダンス(SSG)を提案する。
論文 参考訳(メタデータ) (2026-02-05T10:48:58Z) - PRISM: Purified Representation and Integrated Semantic Modeling for Generative Sequential Recommendation [28.629759086187352]
本稿では,PRISMとPureified RepresentationとIntegrated Semantic Modelingを組み合わせた新しい生成レコメンデーションフレームワークを提案する。
PRISMは4つの実世界のデータセットで、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-23T08:50:16Z) - HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - When Semantics Regulate: Rethinking Patch Shuffle and Internal Bias for Generated Image Detection with CLIP [13.360123625878733]
CLIPベースの検出器は、しばしばジェネレータアーティファクトではなくセマンティックキューに依存しており、分散シフト時の不安定なパフォーマンスをもたらす。
Patch Shuffleは、グローバルなセマンティックな連続性を阻害するCLIPに対して、非常に強力なメリットを提供する。
本稿では,セマンティックサブ空間を凍結し,人工物に敏感な層のみを適応させるセマンティック・アンタゴニスティックな微調整パラダイムであるSemAntiを提案する。
論文 参考訳(メタデータ) (2025-11-24T13:54:00Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。