論文の概要: VENUS: Visual Editing with Noise Inversion Using Scene Graphs
- arxiv url: http://arxiv.org/abs/2601.07219v1
- Date: Mon, 12 Jan 2026 05:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.226305
- Title: VENUS: Visual Editing with Noise Inversion Using Scene Graphs
- Title(参考訳): VENUS:シーングラフを用いたノイズインバージョンによるビジュアル編集
- Authors: Thanh-Nhan Vo, Trong-Thuan Nguyen, Tam V. Nguyen, Minh-Triet Tran,
- Abstract要約: VENUSは、シーングラフ誘導画像編集のためのトレーニング不要のフレームワークである。
金星はPIE-Benchの背景保存とセマンティックアライメントを大幅に改善する。
EditValでは、VENUSは0.87DINOスコアで最高忠実度を達成した。
- 参考スコア(独自算出の注目度): 18.681125141500345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art text-based image editing models often struggle to balance background preservation with semantic consistency, frequently resulting either in the synthesis of entirely new images or in outputs that fail to realize the intended edits. In contrast, scene graph-based image editing addresses this limitation by providing a structured representation of semantic entities and their relations, thereby offering improved controllability. However, existing scene graph editing methods typically depend on model fine-tuning, which incurs high computational cost and limits scalability. To this end, we introduce VENUS (Visual Editing with Noise inversion Using Scene graphs), a training-free framework for scene graph-guided image editing. Specifically, VENUS employs a split prompt conditioning strategy that disentangles the target object of the edit from its background context, while simultaneously leveraging noise inversion to preserve fidelity in unedited regions. Moreover, our proposed approach integrates scene graphs extracted from multimodal large language models with diffusion backbones, without requiring any additional training. Empirically, VENUS substantially improves both background preservation and semantic alignment on PIE-Bench, increasing PSNR from 22.45 to 24.80, SSIM from 0.79 to 0.84, and reducing LPIPS from 0.100 to 0.070 relative to the state-of-the-art scene graph editing model (SGEdit). In addition, VENUS enhances semantic consistency as measured by CLIP similarity (24.97 vs. 24.19). On EditVal, VENUS achieves the highest fidelity with a 0.87 DINO score and, crucially, reduces per-image runtime from 6-10 minutes to only 20-30 seconds. Beyond scene graph-based editing, VENUS also surpasses strong text-based editing baselines such as LEDIT++ and P2P+DirInv, thereby demonstrating consistent improvements across both paradigms.
- Abstract(参考訳): 最先端のテキストベースの画像編集モデルは、背景の保存とセマンティックな一貫性のバランスをとるのに苦労することが多く、しばしば全く新しい画像の合成や、意図した編集を達成できない出力に繋がる。
対照的に、シーングラフベースの画像編集は、セマンティックエンティティとその関係の構造化された表現を提供することにより、この制限に対処し、制御性を向上させる。
しかし,既存のシーングラフ編集手法は,計算コストが高く,スケーラビリティが制限されるモデル微調整に依存することが多い。
この目的のために、シーングラフ誘導画像編集のためのトレーニングフリーフレームワークであるVENUS(Visual Editing with Noise Inversion Using Scene graphs)を紹介する。
具体的には、VENUSは、編集対象を背景コンテキストから切り離す分割プロンプト条件付け戦略を採用し、同時にノイズインバージョンを利用して未編集領域の忠実性を維持する。
さらに,本提案手法では,マルチモーダルな大規模言語モデルから抽出したシーングラフと拡散バックボーンを,追加のトレーニングを必要とせずに統合する。
VENUSは、PIE-Benchの背景保存とセマンティックアライメントの両方を大幅に改善し、PSNRを22.45から24.80に、SSIMを0.79から0.84に、LPIPSを0.100から0.070に減らした(SGEdit)。
さらに、VENUSはCLIP類似度(24.97対24.19)によって測定される意味一貫性を高める。
EditValでは、VENUSは0.87 DINOスコアで最高忠実度を達成し、画像当たりのランタイムを6-10分から20-30秒に短縮する。
VENUSはシーングラフベースの編集以外にも、LEDIT++やP2P+DirInvといった強力なテキストベースの編集ベースラインを超えており、両方のパラダイムで一貫した改善がなされている。
関連論文リスト
- EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing [75.29825659756351]
FlashEditは、高忠実でリアルタイムな画像編集を可能にするように設計された新しいフレームワークである。
その効率性は,(1)コストのかかる反復プロセスをバイパスするワンステップ・インバージョン・アンド・編集(OSIE)パイプライン,(2)編集領域内でのみ特徴を選択的に修正することで背景保存を保証するバックグラウンドシールド(BG-Shield)技術,(3)背景への意味的漏洩を抑えることで正確な局所的編集を保証するスカラー化空間横断認識(SSCA)機構の3つの重要なイノベーションに由来する。
論文 参考訳(メタデータ) (2025-09-26T11:59:30Z) - Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - SATURN: Autoregressive Image Generation Guided by Scene Graphs [12.322079280436888]
本稿では,シーングラフをサリエンス順序付きトークンシーケンスに変換する,VAR-CLIPの軽量拡張であるSATURNを紹介する。
ビジュアルゲノムデータセットでは、SATURNはFIDを56.45%から21.62%に削減し、インセプションスコアを16.03から24.78に引き上げている。
その結果,SATURNは構造的認識と最先端の自己回帰的忠実度を効果的に組み合わせていることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-20T07:45:08Z) - NEP: Autoregressive Image Editing via Next Editing Token Prediction [16.69384738678215]
本稿では,自動回帰画像生成に基づくNext Editing-token Prediction(NEP)として画像編集を定式化することを提案する。
我々のモデルは、ゼロショット方式でその生成を反復的に精錬することで、テスト時間スケーリング(TTS)を自然にサポートします。
論文 参考訳(メタデータ) (2025-08-08T06:06:34Z) - FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models [44.26371926512843]
我々は、プログレッシブな$textbfFre$qu$textbfe$ncy truncationを用いて、ユニバーサル編集タスクのための$textbfDiff$usionモデルのガイダンスを洗練するために、新しいフリーアプローチを導入する。
本手法は,様々な編集タスクや多様な画像に対して,最先端の手法で比較結果を得る。
論文 参考訳(メタデータ) (2024-04-18T04:47:28Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。