論文の概要: BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities
- arxiv url: http://arxiv.org/abs/2410.14672v1
- Date: Fri, 18 Oct 2024 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:36.693989
- Title: BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities
- Title(参考訳): BiGR: 画像生成のためのバイナリ遅延コードと視覚表現機能の改善
- Authors: Shaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong,
- Abstract要約: BiGRは、生成訓練のためのコンパクトなバイナリ潜在符号を用いた、新しい条件付き画像生成モデルである。
BiGRは、同じフレームワーク内で生成と識別を統一する最初の条件付き生成モデルである。
- 参考スコア(独自算出の注目度): 21.73490814121567
- License:
- Abstract: We introduce BiGR, a novel conditional image generation model using compact binary latent codes for generative training, focusing on enhancing both generation and representation capabilities. BiGR is the first conditional generative model that unifies generation and discrimination within the same framework. BiGR features a binary tokenizer, a masked modeling mechanism, and a binary transcoder for binary code prediction. Additionally, we introduce a novel entropy-ordered sampling method to enable efficient image generation. Extensive experiments validate BiGR's superior performance in generation quality, as measured by FID-50k, and representation capabilities, as evidenced by linear-probe accuracy. Moreover, BiGR showcases zero-shot generalization across various vision tasks, enabling applications such as image inpainting, outpainting, editing, interpolation, and enrichment, without the need for structural modifications. Our findings suggest that BiGR unifies generative and discriminative tasks effectively, paving the way for further advancements in the field.
- Abstract(参考訳): 生成訓練にコンパクトなバイナリ潜在符号を用いた条件付き画像生成モデルであるBiGRを導入し,生成能力と表現能力の両立に着目した。
BiGRは、同じフレームワーク内で生成と識別を統一する最初の条件付き生成モデルである。
BiGRはバイナリトークンライザ、マスク付きモデリング機構、バイナリコード予測用のバイナリトランスコーダを備えている。
さらに,効率的な画像生成を実現するために,新しいエントロピー順序付きサンプリング手法を提案する。
大規模な実験は、線形プローブ精度によって証明されたような、FID-50kで測定されたBiGRの世代品質の優れた性能と表現能力を評価する。
さらに、BiGRは様々な視覚タスクにまたがるゼロショットの一般化を示し、画像のインペイント、アウトペイント、編集、補間、エンリッチメントといった応用を、構造的な修正を必要とせずに実現している。
以上の結果から,BiGRは生成的・識別的タスクを効果的に統合し,さらなる進歩の道を開くことが示唆された。
関連論文リスト
- MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
ビットトークンを直接操作する新しい埋め込み不要な生成ネットワークは、ImageNet 256x256ベンチマークで1.52の最先端FIDを達成し、わずか305Mパラメータのコンパクトなジェネレータモデルである。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - Generative Visual Prompt: Unifying Distributional Control of Pre-Trained
Generative Models [77.47505141269035]
Generative Visual Prompt (PromptGen) は、事前訓練された生成モデルの分散制御のためのフレームワークである。
PromptGenはエネルギーベースモデル(EBM)を近似し、フィードフォワード方式で画像をサンプリングする。
コードはhttps://github.com/ChenWu98/Generative-Visual-Prompt.comで入手できる。
論文 参考訳(メタデータ) (2022-09-14T22:55:18Z) - Hierarchical Semantic Regularization of Latent Spaces in StyleGANs [53.98170188547775]
本稿では,階層型意味正規化器(HSR)を提案する。これは,生成元が学習した階層的表現と,事前学習したネットワークが大量のデータに基づいて学習する強力な特徴とを一致させる。
HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
論文 参考訳(メタデータ) (2022-08-07T16:23:33Z) - PAGER: Progressive Attribute-Guided Extendable Robust Image Generation [38.484332924924914]
本研究は,連続的部分空間学習(SSL)に基づく生成的モデリング手法を提案する。
文献のほとんどの生成モデルとは異なり,本手法では,基盤となるソース分布の解析や画像の合成にはニューラルネットワークを使用しない。
プログレッシブ誘導伸縮性画像生成(R)モデルと呼ばれるこの手法は、数学的透明性、プログレッシブコンテンツ生成、トレーニング時間の短縮、トレーニングサンプルの少ないロバストパフォーマンス、条件付き画像生成への拡張性に利点がある。
論文 参考訳(メタデータ) (2022-06-01T00:35:42Z) - GR-GAN: Gradual Refinement Text-to-image Generation [15.99543073122574]
本稿では, この問題を効果的に緩和するために, GR-GAN(Gradual Refinement Generative Adversarial Network)を提案する。
GRGモジュールは、対応するテキスト制約で低解像度から高解像度の画像を生成するように設計されている。
ITMモジュールは、文-画像レベルと単語-領域レベルの両方で画像-テキスト整合損失を提供するように設計されている。
論文 参考訳(メタデータ) (2022-05-23T12:42:04Z) - Improved Image Generation via Sparse Modeling [27.66648389933265]
生成器は、Convolutional Sparse Coding (CSC) とそのMulti-Layeredバージョン (ML-CSC) 合成プロセスの発現として見ることができる。
この観測は、発電機内の適切な選択された活性化層にスパーシファイング正規化を明示的に強制することによって活用する。
論文 参考訳(メタデータ) (2021-04-01T13:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。