Fugu-MT 論文翻訳(概要): A Generic Approach for Enhancing GANs by Regularized Latent Optimization

論文の概要: A Generic Approach for Enhancing GANs by Regularized Latent Optimization

arxiv url: http://arxiv.org/abs/2112.03502v1
Date: Tue, 7 Dec 2021 05:22:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-09 00:56:51.518698
Title: A Generic Approach for Enhancing GANs by Regularized Latent Optimization
Title（参考訳）: 正規化潜在最適化によるGANの一般化手法
Authors: Yufan Zhou, Chunyuan Li, Changyou Chen, Jinhui Xu
Abstract要約: 本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
参考スコア（独自算出の注目度）: 79.00740660219256
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapidly growing model complexity and data volume, training deep generative models (DGMs) for better performance has becoming an increasingly more important challenge. Previous research on this problem has mainly focused on improving DGMs by either introducing new objective functions or designing more expressive model architectures. However, such approaches often introduce significantly more computational and/or designing overhead. To resolve such issues, we introduce in this paper a generic framework called {\em generative-model inference} that is capable of enhancing pre-trained GANs effectively and seamlessly in a variety of application scenarios. Our basic idea is to efficiently infer the optimal latent distribution for the given requirements using Wasserstein gradient flow techniques, instead of re-training or fine-tuning pre-trained model parameters. Extensive experimental results on applications like image generation, image translation, text-to-image generation, image inpainting, and text-guided image editing suggest the effectiveness and superiority of our proposed framework.
Abstract（参考訳）: モデル複雑性とデータボリュームが急速に増加し、パフォーマンス向上のための深層生成モデル(DGM)のトレーニングがますます重要になっている。この問題に関するこれまでの研究は主に、新しい目的関数を導入するか、より表現力のあるモデルアーキテクチャを設計することによって、DGMの改善に焦点を当ててきた。しかし、このようなアプローチは計算量や設計のオーバーヘッドを大幅に増加させることが多い。このような問題を解決するために,本論文では,様々なアプリケーションシナリオにおいて,事前学習したGANを効果的かつシームレスに拡張できる,ジェネリックフレームワークである「ジェネレーティブ・モデル推論」を紹介する。我々の基本的な考え方は、トレーニング済みモデルパラメータの再学習や微調整の代わりに、ワッサーシュタイン勾配流法を用いて与えられた要件に対する最適潜時分布を効率的に推定することである。画像生成,画像翻訳,テキスト対画像生成,画像インパインティング,テキストガイド画像編集などのアプリケーションにおける広範な実験結果から,提案手法の有効性と優位性が示唆された。

関連論文リスト

Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文参考訳（メタデータ） (2025-05-27T17:50:47Z)
Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文参考訳（メタデータ） (2025-01-31T09:53:47Z)
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文参考訳（メタデータ） (2025-01-23T18:59:43Z)
Reward Incremental Learning in Text-to-Image Generation [26.64026346266299]
本稿では,計算オーバーヘッドを最小限に抑える方法であるReward Incremental Distillation(RID)を提案する。実験結果から,RILシナリオにおける一貫した高次勾配生成の実現におけるRIDの有効性が示された。
論文参考訳（メタデータ） (2024-11-26T10:54:33Z)
CART: Compositional Auto-Regressive Transformer for Image Generation [2.5563396001349297]
本稿では,自動回帰(AR)モデリングを用いた画像生成手法を提案する。提案手法は,画像に細かな細部を合成的に繰り返し付加することにより,これらの課題に対処する。この戦略は従来の次世代予測よりも効果的であることが示され、最先端の次世代予測アプローチを超えている。
論文参考訳（メタデータ） (2024-11-15T13:29:44Z)
DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文参考訳（メタデータ） (2024-06-26T16:10:31Z)
YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文参考訳（メタデータ） (2024-04-08T16:51:19Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文参考訳（メタデータ） (2023-09-02T03:27:20Z)
IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-17T17:07:36Z)
InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文参考訳（メタデータ） (2021-12-08T21:39:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。