論文の概要: Generative Refinement Networks for Visual Synthesis
- arxiv url: http://arxiv.org/abs/2604.13030v1
- Date: Tue, 14 Apr 2026 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.607395
- Title: Generative Refinement Networks for Visual Synthesis
- Title(参考訳): 視覚合成のための生成的リファインメントネットワーク
- Authors: Jian Han, Jinlai Liu, Jiahuan Wang, Bingyue Peng, Zehuan Yuan,
- Abstract要約: 本稿では,次世代視覚合成パラダイムであるジェネレーティブ・リファインメント・ネットワーク(GRN)を紹介する。
GRNは、理論上ほぼロスレスな階層型二元量子化(HBQ)による離散トークン化ボトルネックに対処する
ImageNetベンチマークでは、GRNは画像再構成(0.56 rFID)とクラス条件画像生成(1.81 gFID)で新しい記録を確立する。
- 参考スコア(独自算出の注目度): 28.87504154630184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While diffusion models dominate the field of visual generation, they are computationally inefficient, applying a uniform computational effort regardless of different complexity. In contrast, autoregressive (AR) models are inherently complexity-aware, as evidenced by their variable likelihoods, but are often hindered by lossy discrete tokenization and error accumulation. In this work, we introduce Generative Refinement Networks (GRN), a next-generation visual synthesis paradigm to address these issues. At its core, GRN addresses the discrete tokenization bottleneck through a theoretically near-lossless Hierarchical Binary Quantization (HBQ), achieving a reconstruction quality comparable to continuous counterparts. Built upon HBQ's latent space, GRN fundamentally upgrades AR generation with a global refinement mechanism that progressively perfects and corrects artworks -- like a human artist painting. Besides, GRN integrates an entropy-guided sampling strategy, enabling complexity-aware, adaptive-step generation without compromising visual quality. On the ImageNet benchmark, GRN establishes new records in image reconstruction (0.56 rFID) and class-conditional image generation (1.81 gFID). We also scale GRN to more challenging text-to-image and text-to-video generation, delivering superior performance on an equivalent scale. We release all models and code to foster further research on GRN.
- Abstract(参考訳): 拡散モデルは視覚生成の分野を支配しているが、それらは計算的に非効率であり、異なる複雑さによらず、一様の計算処理を適用している。
対照的に、自己回帰(AR)モデルは本質的に複雑性に敏感なモデルであり、変数の確率によって証明されるが、しばしば離散的なトークン化やエラーの蓄積によって妨げられる。
本稿では,これらの問題に対処する次世代視覚合成パラダイムであるジェネレーション・リファインメント・ネットワーク(GRN)を紹介する。
GRNの中核は、理論上ほぼ無作為な階層的二元量子化(HBQ)を通じて離散的なトークン化ボトルネックに対処し、連続的な量子化に匹敵する再構成品質を達成する。
HBQの潜伏空間に基づいて構築されたGRNは、人間の絵のようなアートワークを徐々に完璧にし修正するグローバルな洗練メカニズムで、AR世代を根本的にアップグレードする。
さらに、GRNはエントロピー誘導サンプリング戦略を統合し、視覚的品質を損なうことなく、複雑さを認識し、適応的なステップ生成を可能にする。
ImageNetベンチマークでは、GRNは画像再構成(0.56 rFID)とクラス条件画像生成(1.81 gFID)で新しい記録を確立する。
また、GRNをより困難なテキスト・ツー・イメージとテキスト・ツー・ビデオ・ジェネレーションに拡張し、同等のスケールで優れたパフォーマンスを提供する。
GRNに関するさらなる研究を促進するため、すべてのモデルとコードを公開します。
関連論文リスト
- Reservoir-Based Graph Convolutional Networks [9.230324850974378]
RGC-Net(Reservoir-based Graph Convolutional Network)を提案する。
RGC-Netは、脳グラフの進化を含む分類および生成タスクにおける最先端のパフォーマンスを実現し、より高速な収束とオーバースムーシングの削減を実現している。
論文 参考訳(メタデータ) (2026-03-25T09:50:50Z) - SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation [64.29376407025768]
Neighbor Cross Entropy Minimization (SNCE)は、大容量の離散画像生成装置の最適化課題に対処するために設計された、新しいトレーニング目標である。
我々は,クラス条件のImageNet-256生成,大規模テキスト・画像合成,画像編集タスクについて実験を行った。
その結果,SNCEは標準のクロスエントロピー目標と比較してコンバージェンス速度と全体の生成品質を著しく向上することがわかった。
論文 参考訳(メタデータ) (2026-03-16T11:44:11Z) - ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - HeSRN: Representation Learning On Heterogeneous Graphs via Slot-Aware Retentive Network [22.60005673964228]
HeSRNは、効率的かつ表現力のあるヘテロジニアスグラフ表現学習のための、新しいヘテロジニアススロット対応Retentive Networkである。
HeSRNは、ノード分類タスクにおける最先端の異種グラフニューラルネットワークとグラフトランスフォーマーベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-10-10T18:18:06Z) - GeoPos: A Minimal Positional Encoding for Enhanced Fine-Grained Details in Image Synthesis Using Convolutional Neural Networks [0.0]
複雑な幾何学的特徴を再現する画像生成モデルの永続的不備は、ほぼ10年間にわたって進行中の問題であった。
本稿では,この問題を幾何的能力の畳み込み層を拡大することにより緩和する方法について述べる。
本研究では,拡散モデル,GAN,変分オートエンコーダ(VAE)によって生成された画像の品質を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-03T19:27:20Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - The Deep Generative Decoder: MAP estimation of representations improves
modeling of single-cell RNA data [0.0]
モデルパラメータと表現を直接最大後部推定(MAP)により計算する単純な生成モデルを提案する。
このアプローチの利点は、その単純さと、同等のVAEよりもはるかに小さな次元の表現を提供する能力である。
論文 参考訳(メタデータ) (2021-10-13T12:17:46Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z) - Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text
Generation [56.73834525802723]
軽量な動的グラフ畳み込みネットワーク (LDGCN) を提案する。
LDGCNは入力グラフから高次情報を合成することにより、よりリッチな非局所的な相互作用をキャプチャする。
我々は,グループグラフの畳み込みと重み付き畳み込みに基づく2つの新しいパラメータ保存戦略を開発し,メモリ使用量とモデル複雑性を低減する。
論文 参考訳(メタデータ) (2020-10-09T06:03:46Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。