論文の概要: Next Visual Granularity Generation
- arxiv url: http://arxiv.org/abs/2508.12811v1
- Date: Mon, 18 Aug 2025 10:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.247206
- Title: Next Visual Granularity Generation
- Title(参考訳): 次世代のビジュアルグラニュリティ生成
- Authors: Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy,
- Abstract要約: 本稿では,画像を構造化シーケンスに分解することで,画像生成に新たなアプローチを提案する。
次のビジュアルグラニュラリティ(NVG)生成フレームワークは、視覚的なグラニュラリティシーケンスを生成する。
我々は、ImageNetデータセット上でクラス条件画像生成のための一連のNVGモデルをトレーニングし、明確なスケーリング挙動を観察する。
- 参考スコア(独自算出の注目度): 58.22272282205028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel approach to image generation by decomposing an image into a structured sequence, where each element in the sequence shares the same spatial resolution but differs in the number of unique tokens used, capturing different level of visual granularity. Image generation is carried out through our newly introduced Next Visual Granularity (NVG) generation framework, which generates a visual granularity sequence beginning from an empty image and progressively refines it, from global layout to fine details, in a structured manner. This iterative process encodes a hierarchical, layered representation that offers fine-grained control over the generation process across multiple granularity levels. We train a series of NVG models for class-conditional image generation on the ImageNet dataset and observe clear scaling behavior. Compared to the VAR series, NVG consistently outperforms it in terms of FID scores (3.30 -> 3.03, 2.57 ->2.44, 2.09 -> 2.06). We also conduct extensive analysis to showcase the capability and potential of the NVG framework. Our code and models will be released.
- Abstract(参考訳): 本稿では,画像を構造化シーケンスに分解して画像を生成する手法を提案する。この手法では,各要素は同じ空間分解能を共有するが,使用するユニークなトークンの数が異なるため,視覚的粒度が異なる。
画像生成は新たに導入されたNext Visual Granularity (NVG) 生成フレームワークを通じて行われ、空のイメージから始まる視覚的粒度シーケンスを生成し、グローバルなレイアウトから細部まで、構造化された方法で徐々に洗練する。
この反復的プロセスは階層的な階層的表現を符号化し、複数の粒度レベルにわたる生成プロセスのきめ細かい制御を提供する。
我々は、ImageNetデータセット上でクラス条件画像生成のための一連のNVGモデルをトレーニングし、明確なスケーリング挙動を観察する。
VARシリーズと比較すると、NVGはFIDスコア(3.30 -> 3.03, 2.57 ->2.44, 2.09 -> 2.06)で一貫して上回っている。
我々はまた、NVGフレームワークの能力と可能性を示す広範囲な分析を行う。
コードとモデルはリリースされます。
関連論文リスト
- MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization [43.12251414524675]
ベクトル量子化(VQ)を用いたマスクド画像モデリング(MIM)は,自己教師付き事前学習と画像生成において大きな成功を収めている。
本稿では,VQに基づく生成モデルにトークンマージ手法を組み込んで,画像生成と視覚表現学習のギャップを埋めるMergeVQを提案する。
論文 参考訳(メタデータ) (2025-04-01T17:39:19Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
大規模な実験と分析により、AVG-LLaVAは11ベンチマークで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Kosmos-G: Generating Images in Context with Multimodal Large Language Models [117.0259361818715]
現在の被写体駆動画像生成法では、テストタイムチューニングが必要であり、インターリーブされたマルチイメージとテキスト入力を受け付けない。
本稿では,マルチモーダル大規模言語モデルの高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。
Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。
論文 参考訳(メタデータ) (2023-10-04T17:28:44Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。