論文の概要: SpotEdit: Evaluating Visually-Guided Image Editing Methods
- arxiv url: http://arxiv.org/abs/2508.18159v1
- Date: Mon, 25 Aug 2025 16:08:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.85266
- Title: SpotEdit: Evaluating Visually-Guided Image Editing Methods
- Title(参考訳): SpotEdit: ビジュアルガイドによる画像編集手法の評価
- Authors: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer,
- Abstract要約: SpotEditは、視覚的に誘導された画像編集方法を評価するために設計された包括的なベンチマークである。
我々のベンチマークには幻覚の専用コンポーネントが含まれており、GPT-4oのような主要なモデルが視覚的キューの存在を幻覚し、誤って編集タスクを実行するかを強調している。
- 参考スコア(独自算出の注目度): 3.5066378196008636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visually-guided image editing, where edits are conditioned on both visual cues and textual prompts, has emerged as a powerful paradigm for fine-grained, controllable content generation. Although recent generative models have shown remarkable capabilities, existing evaluations remain simple and insufficiently representative of real-world editing challenges. We present SpotEdit, a comprehensive benchmark designed to systematically assess visually-guided image editing methods across diverse diffusion, autoregressive, and hybrid generative models, uncovering substantial performance disparities. To address a critical yet underexplored challenge, our benchmark includes a dedicated component on hallucination, highlighting how leading models, such as GPT-4o, often hallucinate the existence of a visual cue and erroneously perform the editing task. Our code and benchmark are publicly released at https://github.com/SaraGhazanfari/SpotEdit.
- Abstract(参考訳): 視覚的に誘導された画像編集では、ビジュアルキューとテキストプロンプトの両方で編集が条件付けられ、きめ細かな制御可能なコンテンツ生成のための強力なパラダイムとして登場した。
最近の生成モデルは目覚ましい能力を示しているが、既存の評価は、現実の編集課題をシンプルかつ不十分に表している。
本研究では,多種多様な拡散,自己回帰,ハイブリッド生成モデルにまたがる視覚誘導画像編集手法を体系的に評価するために設計された総合的なベンチマークであるSpotEditについて述べる。
GPT-4oのような主要なモデルが視覚的キューの存在を幻覚し、誤って編集タスクを実行する場合が多い。
私たちのコードとベンチマークはhttps://github.com/SaraGhazanfari/SpotEdit.comで公開されています。
関連論文リスト
- Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits [22.762414256693265]
テキスト誘導画像編集評価のための新しいベンチマークであるEditInspectorを紹介する。
我々はEditInspectorを利用して、編集評価における最先端(SoTA)ビジョンと言語モデルの性能を評価する。
以上の結果から,現在のモデルでは,編集を包括的かつ頻繁に評価することは困難であることが示唆された。
論文 参考訳(メタデータ) (2025-06-11T17:58:25Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - SPICE: A Synergistic, Precise, Iterative, and Customizable Image Editing Workflow [8.850778795270351]
SPICEは任意の解像度とアスペクト比を受け入れ、ユーザの要求を正確に追従し、画像品質を一貫して改善する、トレーニング不要のワークフローである。
SPICEは、挑戦的なリアルな画像編集データセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-13T19:13:04Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。