Fugu-MT 論文翻訳(概要): SimGraph: A Unified Framework for Scene Graph-Based Image Generation and Editing

論文の概要: SimGraph: A Unified Framework for Scene Graph-Based Image Generation and Editing

arxiv url: http://arxiv.org/abs/2601.21498v1
Date: Thu, 29 Jan 2026 10:15:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-30 16:22:49.726436
Title: SimGraph: A Unified Framework for Scene Graph-Based Image Generation and Editing
Title（参考訳）: SimGraph:Scene Graphベースの画像生成と編集のための統一フレームワーク
Authors: Thanh-Nhan Vo, Trong-Thuan Nguyen, Tam V. Nguyen, Minh-Triet Tran,
Abstract要約: シーングラフに基づく画像生成と編集を統合した統合フレームワークであるSimGraphを紹介する。本フレームワークは,1つのシーン駆動モデルにトークン生成と拡散編集を統合し,一貫した結果を保証する。
参考スコア（独自算出の注目度）: 18.681125141500345
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in Generative Artificial Intelligence (GenAI) have significantly enhanced the capabilities of both image generation and editing. However, current approaches often treat these tasks separately, leading to inefficiencies and challenges in maintaining spatial consistency and semantic coherence between generated content and edits. Moreover, a major obstacle is the lack of structured control over object relationships and spatial arrangements. Scene graph-based methods, which represent objects and their interrelationships in a structured format, offer a solution by providing greater control over composition and interactions in both image generation and editing. To address this, we introduce SimGraph, a unified framework that integrates scene graph-based image generation and editing, enabling precise control over object interactions, layouts, and spatial coherence. In particular, our framework integrates token-based generation and diffusion-based editing within a single scene graph-driven model, ensuring high-quality and consistent results. Through extensive experiments, we empirically demonstrate that our approach outperforms existing state-of-the-art methods.
Abstract（参考訳）: 生成人工知能(GenAI)の最近の進歩は、画像生成と編集の両方の能力を著しく強化している。しかし、現在のアプローチはしばしばこれらのタスクを別々に扱い、生成されたコンテンツと編集の間の空間的一貫性とセマンティックコヒーレンスを維持するための非効率性と課題をもたらす。さらに、大きな障害は、オブジェクトの関係や空間配置に対する構造化制御の欠如である。オブジェクトとその相互関係を構造化形式で表現するScene graph-based methodは、画像生成と編集の両方において、合成と相互作用のより深い制御を提供することによって、ソリューションを提供する。そこで我々は,シーングラフに基づく画像生成と編集を統合した統合フレームワークであるSimGraphを導入し,オブジェクトの相互作用,レイアウト,空間コヒーレンスを正確に制御する。特に,このフレームワークは,単一シーングラフ駆動モデルにトークンベースの生成と拡散に基づく編集を統合し,高品質で一貫した結果を保証する。広範な実験を通じて、我々のアプローチが既存の最先端手法よりも優れていることを実証的に実証した。

関連論文リスト

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。 VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文参考訳（メタデータ） (2025-04-10T17:59:42Z)
SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文参考訳（メタデータ） (2024-10-15T17:40:48Z)
Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文参考訳（メタデータ） (2024-10-01T07:02:46Z)
ObjBlur: A Curriculum Learning Approach With Progressive Object-Level Blurring for Improved Layout-to-Image Generation [7.645341879105626]
レイアウト・ツー・イメージ生成モデルを改善するための新しいカリキュラム学習手法であるBlurを提案する。提案手法は,プログレッシブオブジェクトレベルのぼかしをベースとして,トレーニングを効果的に安定化し,生成画像の品質を向上させる。
論文参考訳（メタデータ） (2024-04-11T08:50:12Z)
VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文参考訳（メタデータ） (2024-01-04T18:59:24Z)
Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文参考訳（メタデータ） (2023-05-23T08:28:38Z)
Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文参考訳（メタデータ） (2022-07-27T10:37:29Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。