論文の概要: Next Visual Granularity Generation
- arxiv url: http://arxiv.org/abs/2508.12811v1
- Date: Mon, 18 Aug 2025 10:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.247206
- Title: Next Visual Granularity Generation
- Title(参考訳): 次世代のビジュアルグラニュリティ生成
- Authors: Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy,
- Abstract要約: 本稿では,画像を構造化シーケンスに分解することで,画像生成に新たなアプローチを提案する。
次のビジュアルグラニュラリティ(NVG)生成フレームワークは、視覚的なグラニュラリティシーケンスを生成する。
我々は、ImageNetデータセット上でクラス条件画像生成のための一連のNVGモデルをトレーニングし、明確なスケーリング挙動を観察する。
- 参考スコア(独自算出の注目度): 58.22272282205028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel approach to image generation by decomposing an image into a structured sequence, where each element in the sequence shares the same spatial resolution but differs in the number of unique tokens used, capturing different level of visual granularity. Image generation is carried out through our newly introduced Next Visual Granularity (NVG) generation framework, which generates a visual granularity sequence beginning from an empty image and progressively refines it, from global layout to fine details, in a structured manner. This iterative process encodes a hierarchical, layered representation that offers fine-grained control over the generation process across multiple granularity levels. We train a series of NVG models for class-conditional image generation on the ImageNet dataset and observe clear scaling behavior. Compared to the VAR series, NVG consistently outperforms it in terms of FID scores (3.30 -> 3.03, 2.57 ->2.44, 2.09 -> 2.06). We also conduct extensive analysis to showcase the capability and potential of the NVG framework. Our code and models will be released.
- Abstract(参考訳): 本稿では,画像を構造化シーケンスに分解して画像を生成する手法を提案する。この手法では,各要素は同じ空間分解能を共有するが,使用するユニークなトークンの数が異なるため,視覚的粒度が異なる。
画像生成は新たに導入されたNext Visual Granularity (NVG) 生成フレームワークを通じて行われ、空のイメージから始まる視覚的粒度シーケンスを生成し、グローバルなレイアウトから細部まで、構造化された方法で徐々に洗練する。
この反復的プロセスは階層的な階層的表現を符号化し、複数の粒度レベルにわたる生成プロセスのきめ細かい制御を提供する。
我々は、ImageNetデータセット上でクラス条件画像生成のための一連のNVGモデルをトレーニングし、明確なスケーリング挙動を観察する。
VARシリーズと比較すると、NVGはFIDスコア(3.30 -> 3.03, 2.57 ->2.44, 2.09 -> 2.06)で一貫して上回っている。
我々はまた、NVGフレームワークの能力と可能性を示す広範囲な分析を行う。
コードとモデルはリリースされます。
関連論文リスト
- UniRef-Image-Edit: Towards Scalable and Consistent Multi-Reference Image Editing [33.64590153603506]
高性能なマルチモーダル生成システムUniRef-Image-Editを提案する。
単一画像編集と複数画像合成を単一のフレームワークに統合する。
論文 参考訳(メタデータ) (2026-02-15T15:24:03Z) - NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation [66.92488610008519]
NextFlowは6兆個のインターリーブされたテキストイメージの離散トークンでトレーニングされたデコーダのみの自動回帰トランスフォーマーである。
統合された自己回帰アーキテクチャ内の統一された視覚表現を活用することで、NextFlowはマルチモーダル理解と生成機能を活性化する。
NextFlowは、統一されたモデルと、視覚的品質における特殊な拡散ベースラインの間で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-05T15:27:04Z) - GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation [77.13582457917418]
サブサンプルフレームからなる格子画像にのみ依存する生成モデルを訓練する。
本研究では,Diffusion Transformer (DiT) の強い自己アテンション機構を用いて,フレーム間の相関関係を捉えることで,画像系列を生成することを学ぶ。
我々の手法は、データセット間で、品質および推論速度(少なくとも2倍の速さ)において、一貫してSoTAを上回ります。
論文 参考訳(メタデータ) (2025-12-24T16:46:04Z) - TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement [87.82338951215131]
TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
論文 参考訳(メタデータ) (2025-10-18T03:36:26Z) - MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization [43.12251414524675]
ベクトル量子化(VQ)を用いたマスクド画像モデリング(MIM)は,自己教師付き事前学習と画像生成において大きな成功を収めている。
本稿では,VQに基づく生成モデルにトークンマージ手法を組み込んで,画像生成と視覚表現学習のギャップを埋めるMergeVQを提案する。
論文 参考訳(メタデータ) (2025-04-01T17:39:19Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
大規模な実験と分析により、AVG-LLaVAは11ベンチマークで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Kosmos-G: Generating Images in Context with Multimodal Large Language Models [117.0259361818715]
現在の被写体駆動画像生成法では、テストタイムチューニングが必要であり、インターリーブされたマルチイメージとテキスト入力を受け付けない。
本稿では,マルチモーダル大規模言語モデルの高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。
Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。
論文 参考訳(メタデータ) (2023-10-04T17:28:44Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。