論文の概要: Style Quantization for Data-Efficient GAN Training
- arxiv url: http://arxiv.org/abs/2503.24282v1
- Date: Mon, 31 Mar 2025 16:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.503773
- Title: Style Quantization for Data-Efficient GAN Training
- Title(参考訳): データ効率のよいGANトレーニングのためのスタイル量子化
- Authors: Jian Wang, Xin Lan, Jizhe Zhou, Yuxin Tian, Jiancheng Lv,
- Abstract要約: 限られたデータ設定の下では、GANは入力潜在空間をナビゲートし効果的に活用するのに苦労することが多い。
一貫性の整合性を高める新しいアプローチである textitSQ-GAN を提案する。
実験は判別器の堅牢性と生成品質の両方において顕著な改善を示した。
- 参考スコア(独自算出の注目度): 18.40243591024141
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Under limited data setting, GANs often struggle to navigate and effectively exploit the input latent space. Consequently, images generated from adjacent variables in a sparse input latent space may exhibit significant discrepancies in realism, leading to suboptimal consistency regularization (CR) outcomes. To address this, we propose \textit{SQ-GAN}, a novel approach that enhances CR by introducing a style space quantization scheme. This method transforms the sparse, continuous input latent space into a compact, structured discrete proxy space, allowing each element to correspond to a specific real data point, thereby improving CR performance. Instead of direct quantization, we first map the input latent variables into a less entangled ``style'' space and apply quantization using a learnable codebook. This enables each quantized code to control distinct factors of variation. Additionally, we optimize the optimal transport distance to align the codebook codes with features extracted from the training data by a foundation model, embedding external knowledge into the codebook and establishing a semantically rich vocabulary that properly describes the training dataset. Extensive experiments demonstrate significant improvements in both discriminator robustness and generation quality with our method.
- Abstract(参考訳): 限られたデータ設定の下では、GANは入力潜在空間をナビゲートし効果的に活用するのに苦労することが多い。
その結果、スパース入力潜時空間の隣接変数から生成された画像は、リアリズムにおいて顕著な相違を示し、最適下整合正則化(CR)結果をもたらす可能性がある。
これを解決するために,スタイル空間量子化スキームを導入してCRを強化する新しいアプローチである \textit{SQ-GAN} を提案する。
この方法はスパース連続入力潜時空間をコンパクトで構造化された離散プロキシ空間に変換し、各要素が特定の実データポイントに対応できるようにし、CR性能を向上させる。
直接量子化の代わりに、入力潜在変数をより狭義の ``style'' 空間にマッピングし、学習可能なコードブックを用いて量子化を適用する。
これにより、各量子化されたコードは、ばらつきの異なる要因を制御することができる。
さらに,トレーニングデータから抽出した特徴を基礎モデルによって調整し,外部知識をコードブックに埋め込んだ上で,トレーニングデータセットを適切に記述した意味豊かな語彙を確立するために,最適なトランスポート距離を最適化する。
大規模実験により, 判別器の堅牢性と生成品質の両面で有意な改善が認められた。
関連論文リスト
- Controlled LLM Decoding via Discrete Auto-regressive Biasing [9.843359827321194]
制御されたテキスト生成は、大きな言語モデルの出力に対してユーザ定義の制約を強制することができる。
離散テキスト領域で完全に動作しながら勾配を利用する制御復号アルゴリズムである離散自己回帰バイアス法を提案する。
提案手法は,計算コストの低減を図るとともに,制約満足度を著しく向上させる。
論文 参考訳(メタデータ) (2025-02-06T00:14:43Z) - Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。
我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。
ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文 参考訳(メタデータ) (2024-10-31T14:52:01Z) - Protect Before Generate: Error Correcting Codes within Discrete Deep Generative Models [3.053842954605396]
本稿では,離散潜在変数モデルにおける変分推論を強化する新しい手法を提案する。
我々は誤り訂正符号(ECC)を活用し、潜伏表現に冗長性を導入する。
この冗長性は変分後部によって利用され、より正確な推定値が得られる。
論文 参考訳(メタデータ) (2024-10-10T11:59:58Z) - Structured Probabilistic Coding [28.46046583495838]
本稿では、新しい教師付き表現学習フレームワーク、すなわち構造化確率符号化(SPC)を提案する。
SPCはエンコーダのみの確率的符号化技術であり、ターゲット空間から構造化された正規化を持つ。
事前訓練された言語モデルの一般化能力を高め、言語理解を向上させることができる。
論文 参考訳(メタデータ) (2023-12-21T15:28:02Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - Combining Latent Space and Structured Kernels for Bayesian Optimization
over Combinatorial Spaces [27.989924313988016]
我々は、高価なブラックボックス関数評価を用いて、空間(シーケンス、ツリー、グラフなど)を最適化する問題を考察する。
空間に対する最近のBOアプローチは、構造体の潜在表現を学習することで連続空間上のBOへの還元である。
本稿では,この欠点を克服するための原則的アプローチであるLADDERを提案する。
論文 参考訳(メタデータ) (2021-11-01T18:26:22Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z) - Collaborative Training of GANs in Continuous and Discrete Spaces for
Text Generation [21.435286755934534]
本稿では,連続空間と離散空間の協調学習を促進する新しいテキストGANアーキテクチャを提案する。
我々のモデルは、品質、多様性、グローバルな一貫性に関して、最先端のGANよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-10-16T07:51:16Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。