論文の概要: Generate Any Scene: Scene Graph Driven Data Synthesis for Visual Generation Training
- arxiv url: http://arxiv.org/abs/2412.08221v3
- Date: Thu, 09 Oct 2025 23:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:44.895619
- Title: Generate Any Scene: Scene Graph Driven Data Synthesis for Visual Generation Training
- Title(参考訳): あらゆるシーンを生成する: ビジュアルジェネレーショントレーニングのためのシーングラフ駆動データ合成
- Authors: Ziqi Gao, Weikai Huang, Jieyu Zhang, Aniruddha Kembhavi, Ranjay Krishna,
- Abstract要約: データエンジンであるGenerate Any Sceneを紹介し、視覚的なシーンの配列を表すシーングラフを列挙する。
サンプルのシーングラフが与えられた場合、Generate Any Sceneはそれを、テキスト・トゥ・イメージやテキスト・トゥ・ビデオ生成のためのキャプションに変換する。
また、視覚的な質問応答の集合に翻訳し、意味的アライメントの自動評価と報酬モデリングを可能にする。
- 参考スコア(独自算出の注目度): 61.75337990107149
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in text-to-vision generation excel in visual fidelity but struggle with compositional generalization and semantic alignment. Existing datasets are noisy and weakly compositional, limiting models' understanding of complex scenes, while scalable solutions for dense, high-quality annotations remain a challenge. We introduce Generate Any Scene, a data engine that systematically enumerates scene graphs representing the combinatorial array of possible visual scenes. Generate Any Scene dynamically constructs scene graphs of varying complexity from a structured taxonomy of objects, attributes, and relations. Given a sampled scene graph, Generate Any Scene translates it into a caption for text-to-image or text-to-video generation; it also translates it into a set of visual question answers that allow automatic evaluation and reward modeling of semantic alignment. Using Generate Any Scene, we first design a self-improving framework where models iteratively enhance their performance using generated data. Stable Diffusion v1.5 achieves an average 4% improvement over baselines and surpassing fine-tuning on CC3M. Second, we also design a distillation algorithm to transfer specific strengths from proprietary models to their open-source counterparts. Using fewer than 800 synthetic captions, we fine-tune Stable Diffusion v1.5 and achieve a 10% increase in TIFA score on compositional and hard concept generation. Third, we create a reward model to align model generation with semantic accuracy at a low cost. Using GRPO algorithm, we fine-tune SimpleAR-0.5B-SFT and surpass CLIP-based methods by +5% on DPG-Bench. Finally, we apply these ideas to the downstream task of content moderation where we train models to identify challenging cases by learning from synthetic data.
- Abstract(参考訳): テキスト・ツー・ビジョン生成の最近の進歩は、視覚的忠実度に優れるが、構成的一般化と意味的アライメントに苦慮している。
既存のデータセットはノイズが多く、構成が弱いため、複雑なシーンに対するモデルの理解が制限される一方、密集した高品質なアノテーションに対するスケーラブルなソリューションは依然として課題である。
データエンジンであるGenerate Any Sceneを導入し、視覚シーンの組合せ配列を表すシーングラフを体系的に列挙する。
Any Sceneの生成は、オブジェクト、属性、関係の構造化された分類から、様々な複雑さのシーングラフを動的に構築する。
サンプル化されたシーングラフが与えられた場合、Generate Any Sceneはそれをテキスト・ツー・イメージやテキスト・トゥ・ビデオ生成のキャプションに変換する。
Generate Any Sceneを使って、モデルが生成したデータを使って反復的にパフォーマンスを向上する自己改善フレームワークを最初に設計する。
安定拡散v1.5は、ベースラインよりも平均4%改善し、CC3Mの微調整を超える。
第二に、プロプライエタリなモデルからオープンソースモデルへの特定の強みを伝達する蒸留アルゴリズムを設計する。
800種未満の合成キャプションを用いて, 安定拡散v1.5を微調整し, 合成および硬質概念生成におけるTIFAスコアを10%増加させた。
第三に、モデル生成と意味的精度を低コストで整合させる報酬モデルを作成する。
GRPOアルゴリズムを用いてSimpleAR-0.5B-SFTを微調整し,DPG-BenchでCLIP法を+5%超えた。
最後に、これらのアイデアをコンテンツモデレーションの下流タスクに適用し、合成データから学習することで、困難なケースを特定するためにモデルを訓練する。
関連論文リスト
- ViStoryBench: Comprehensive Benchmark Suite for Story Visualization [23.274981415638837]
ViStoryBenchはストーリービジュアライゼーションモデルの評価ベンチマークである。
モデルがキャラクタ一貫性を維持する能力をテストするために、シングルとマルチの主人公によるストーリーが特徴である。
複雑なプロットと、正確な視覚を生成するモデルに挑戦する複雑な世界構築を含んでいる。
論文 参考訳(メタデータ) (2025-05-30T17:58:21Z) - The Scene Language: Representing Scenes with Programs, Words, and Embeddings [23.707974056165042]
本稿では,視覚シーンの構造,意味,アイデンティティを簡潔かつ正確に記述した視覚シーン表現であるシーン言語を紹介する。
シーン内のエンティティの階層構造と関係構造を指定するプログラム、各エンティティのセマンティッククラスを要約する自然言語の単語、各エンティティの視覚的アイデンティティをキャプチャする埋め込みである。
論文 参考訳(メタデータ) (2024-10-22T07:40:20Z) - Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - SGFormer: Semantic Graph Transformer for Point Cloud-based 3D Scene
Graph Generation [46.14140601855313]
本稿では,ポイントクラウドベースの3Dシーングラフ生成のためのSGFormer,Semantic Graph TransFormerという新しいモデルを提案する。
このタスクは、ポイントクラウドベースのシーンをセマンティックな構造グラフに解析することを目的としている。
論文 参考訳(メタデータ) (2023-03-20T11:59:23Z) - Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。
現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。
この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文 参考訳(メタデータ) (2022-11-30T00:05:44Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。