Fugu-MT 論文翻訳(概要): What Makes a Scene ? Scene Graph-based Evaluation and Feedback for Controllable Generation

論文の概要: What Makes a Scene ? Scene Graph-based Evaluation and Feedback for Controllable Generation

arxiv url: http://arxiv.org/abs/2411.15435v1
Date: Sat, 23 Nov 2024 03:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.409525
Title: What Makes a Scene ? Scene Graph-based Evaluation and Feedback for Controllable Generation
Title（参考訳）: シーンとは何か? シーングラフによる評価と制御可能な生成へのフィードバック
Authors: Zuyao Chen, Jinlin Wu, Zhen Lei, Chang Wen Chen,
Abstract要約: Scene-Benchは、自然シーンの生成における現実的一貫性の評価と強化を目的とした総合的なベンチマークである。 Scene-Benchは、シーングラフに注釈を付けた100万の画像の大規模なデータセットであるMegaSGと、新しい評価指標であるSGScoreで構成されている。本研究では,シーングラフと画像間の不一致を識別・補正することにより,生成した画像を反復的に洗練するシーングラフフィードバックパイプラインを開発する。
参考スコア（独自算出の注目度）: 29.42202665594218
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While text-to-image generation has been extensively studied, generating images from scene graphs remains relatively underexplored, primarily due to challenges in accurately modeling spatial relationships and object interactions. To fill this gap, we introduce Scene-Bench, a comprehensive benchmark designed to evaluate and enhance the factual consistency in generating natural scenes. Scene-Bench comprises MegaSG, a large-scale dataset of one million images annotated with scene graphs, facilitating the training and fair comparison of models across diverse and complex scenes. Additionally, we propose SGScore, a novel evaluation metric that leverages chain-of-thought reasoning capabilities of multimodal large language models (LLMs) to assess both object presence and relationship accuracy, offering a more effective measure of factual consistency than traditional metrics like FID and CLIPScore. Building upon this evaluation framework, we develop a scene graph feedback pipeline that iteratively refines generated images by identifying and correcting discrepancies between the scene graph and the image. Extensive experiments demonstrate that Scene-Bench provides a more comprehensive and effective evaluation framework compared to existing benchmarks, particularly for complex scene generation. Furthermore, our feedback strategy significantly enhances the factual consistency of image generation models, advancing the field of controllable image generation.
Abstract（参考訳）: テキスト・ツー・イメージ生成は広く研究されているが、空間関係やオブジェクトの相互作用を正確にモデル化する上での課題から、シーングラフからの画像の生成は比較的未探索のままである。このギャップを埋めるためにScene-Benchという,自然シーンの生成における事実整合性の評価と向上を目的とした総合的なベンチマークを紹介した。 Scene-Benchは、100万の画像にシーングラフをアノテートした大規模なデータセットであるMegaSGで構成され、多様な複雑なシーンにわたるモデルのトレーニングと公正な比較を容易にする。さらに,マルチモーダル大規模言語モデル(LLM)の連鎖推論能力を活用して,オブジェクトの存在と関係の正確性の両方を評価する新しい評価指標であるSGScoreを提案する。この評価枠組みに基づいて,シーングラフと画像間の不一致を識別・補正することにより,生成した画像を反復的に洗練するシーングラフフィードバックパイプラインを開発する。大規模な実験により、Scene-Benchは既存のベンチマーク、特に複雑なシーン生成に比較して、より包括的で効果的な評価フレームワークを提供することが示された。さらに、我々のフィードバック戦略は、画像生成モデルの事実整合性を大幅に向上させ、制御可能な画像生成の分野を前進させる。

関連論文リスト

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization [23.274981415638837]
ViStoryBenchはストーリービジュアライゼーションモデルの評価ベンチマークである。モデルがキャラクタ一貫性を維持する能力をテストするために、シングルとマルチの主人公によるストーリーが特徴である。複雑なプロットと、正確な視覚を生成するモデルに挑戦する複雑な世界構築を含んでいる。
論文参考訳（メタデータ） (2025-05-30T17:58:21Z)
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。 ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。 ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文参考訳（メタデータ） (2024-11-26T07:55:57Z)
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance [46.77060502803466]
本稿では,シーングラフの構造化表現を利用したScene Graph Adapter(SG-Adapter)を導入する。 SG-Adapterの明示的で完全に連結されていないグラフ表現は、完全に連結されたトランスフォーマーベースのテキスト表現を大幅に改善する。
論文参考訳（メタデータ） (2024-05-24T08:00:46Z)
Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文参考訳（メタデータ） (2023-05-23T08:28:38Z)
Controllable Image Generation via Collage Representations [31.456445433105415]
ミラー・アンド・マッチングシーン(M&Ms)とは、コラージュ内の異なる要素の外観的特徴と空間的位置を条件とした、逆向きに訓練された生成画像モデルからなるアプローチである。 M&Mは、画質とサンプルの多様性の点で非常に競争力がありながら、きめ細かなシーン制御性の観点から、ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-04-26T17:58:39Z)
DisPositioNet: Disentangled Pose and Identity in Semantic Image Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文参考訳（メタデータ） (2022-11-10T11:47:37Z)
Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文参考訳（メタデータ） (2022-07-27T10:37:29Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)
Exploiting Relationship for Complex-scene Image Generation [43.022978211274065]
本研究では,複数のオブジェクトをシーングラフとして関連づける関係認識型複素画像生成について考察する。生成フレームワークに3つの大きなアップデートを提案する。第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。
論文参考訳（メタデータ） (2021-04-01T09:21:39Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。