論文の概要: SATURN: Autoregressive Image Generation Guided by Scene Graphs
- arxiv url: http://arxiv.org/abs/2508.14502v1
- Date: Wed, 20 Aug 2025 07:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.381
- Title: SATURN: Autoregressive Image Generation Guided by Scene Graphs
- Title(参考訳): SATURN:Scene Graphsでガイドされた自動回帰画像生成
- Authors: Thanh-Nhan Vo, Trong-Thuan Nguyen, Tam V. Nguyen, Minh-Triet Tran,
- Abstract要約: 本稿では,シーングラフをサリエンス順序付きトークンシーケンスに変換する,VAR-CLIPの軽量拡張であるSATURNを紹介する。
ビジュアルゲノムデータセットでは、SATURNはFIDを56.45%から21.62%に削減し、インセプションスコアを16.03から24.78に引き上げている。
その結果,SATURNは構造的認識と最先端の自己回帰的忠実度を効果的に組み合わせていることが明らかとなった。
- 参考スコア(独自算出の注目度): 12.322079280436888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art text-to-image models excel at photorealistic rendering but often struggle to capture the layout and object relationships implied by complex prompts. Scene graphs provide a natural structural prior, yet previous graph-guided approaches have typically relied on heavy GAN or diffusion pipelines, which lag behind modern autoregressive architectures in both speed and fidelity. We introduce SATURN (Structured Arrangement of Triplets for Unified Rendering Networks), a lightweight extension to VAR-CLIP that translates a scene graph into a salience-ordered token sequence, enabling a frozen CLIP-VQ-VAE backbone to interpret graph structure while fine-tuning only the VAR transformer. On the Visual Genome dataset, SATURN reduces FID from 56.45% to 21.62% and increases the Inception Score from 16.03 to 24.78, outperforming prior methods such as SG2IM and SGDiff without requiring extra modules or multi-stage training. Qualitative results further confirm improvements in object count fidelity and spatial relation accuracy, showing that SATURN effectively combines structural awareness with state-of-the-art autoregressive fidelity.
- Abstract(参考訳): 最先端のテキスト画像モデルはフォトリアリスティックレンダリングに優れるが、複雑なプロンプトによって入力されるレイアウトやオブジェクトの関係を捉えるのに苦労することが多い。
シーングラフは、自然な構造的先行を提供するが、従来のグラフ誘導アプローチは、通常、高速かつ忠実なモダンな自己回帰アーキテクチャの遅れである重いGANまたは拡散パイプラインに依存している。
本稿では,SATURN(Structured Arrangement of Triplets for Unified Rendering Networks)を導入し,VAR変換器のみを微調整しながら,凍結したCLIP-VQ-VAEバックボーンでグラフ構造を解釈できるようにする。
ビジュアルゲノムデータセットでは、SATURNはFIDを56.45%から21.62%に減らし、インセプションスコアを16.03から24.78に引き上げ、SG2IMやSGDiffのような以前の手法よりも、追加のモジュールやマルチステージトレーニングを必要としない。
その結果,SATURNは構造的認識と最先端の自己回帰的忠実さを効果的に組み合わせていることがわかった。
関連論文リスト
- From "What" to "How": Constrained Reasoning for Autoregressive Image Generation [26.716018030404665]
CoR-PainterはConstrained Reasoningを導入することで、"How-to-What"パラダイムを開拓する新しいフレームワークである。
まず、入力プロンプトから一連の視覚的制約を導出することで、"ハウ・トゥ・ドロー"を導出する。
これらの制約は、構造的に健全でコヒーレントな基礎を提供し、正確な視覚合成を行うための詳細な記述"What to draw"の生成を後回しにしている。
論文 参考訳(メタデータ) (2026-03-03T08:03:18Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering [76.53315206999231]
TextPeckerは、プラグアンドプレイで構造的異常を知覚するRL戦略である。
ノイズの多い報酬信号を緩和し、任意のテキスト・イメージ・ジェネレータで動作する。
構造的忠実度の平均利得は4%、意味的アライメントは8.7%である。
論文 参考訳(メタデータ) (2026-02-24T13:40:23Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - From Data to Modeling: Fully Open-vocabulary Scene Graph Generation [29.42202665594218]
OvSGTRは、完全にオープンなシーングラフ生成のためのトランスフォーマーベースのフレームワークである。
我々のアプローチは、事前に定義されたカテゴリを超えて、オブジェクト(ノード)とその相互関係(エッジ)を共同で予測する。
論文 参考訳(メタデータ) (2025-05-26T15:11:23Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - NFIG: Autoregressive Image Generation with Next-Frequency Prediction [50.69346038028673]
textbfNext-textbfFrequency textbfImage textbfGeneration (textbfNFIG) は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
提案手法では,まず低周波成分を生成し,より少ないトークンで大域構造を確立する。
論文 参考訳(メタデータ) (2025-03-10T08:59:10Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。