論文の概要: MIRAGE: Benchmarking and Aligning Multi-Instance Image Editing
- arxiv url: http://arxiv.org/abs/2604.05180v1
- Date: Mon, 06 Apr 2026 21:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.496057
- Title: MIRAGE: Benchmarking and Aligning Multi-Instance Image Editing
- Title(参考訳): MIRAGE:マルチインスタンスイメージ編集のベンチマークと調整
- Authors: Ziqian Liu, Stephan Alaniz,
- Abstract要約: 我々は,複数の同一事例や複合命令に直面する場合,最先端のモデルでは過編集や空間的不整合に悩まされていることを観察する。
MIRAGE(Multi-Instance Regional Alignment via Guided Editing)は,高度かつ局所的な編集を可能にするトレーニング不要のフレームワークである。
我々のフレームワークは、背景の一貫性を保ちながら、正確なインスタンスレベルの修正を実現する上で、既存の手法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 9.297700134159916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-guided image editing has seen remarkable progress with models like FLUX.2 and Qwen-Image-Edit, yet they still struggle with complex scenarios with multiple similar instances each requiring individual edits. We observe that state-of-the-art models suffer from severe over-editing and spatial misalignment when faced with multiple identical instances and composite instructions. To this end, we introduce a comprehensive benchmark specifically designed to evaluate fine-grained consistency in multi-instance and multi-instruction settings. To address the failures of existing methods observed in our benchmark, we propose Multi-Instance Regional Alignment via Guided Editing (MIRAGE), a training-free framework that enables precise, localized editing. By leveraging a vision-language model to parse complex instructions into regional subsets, MIRAGE employs a multi-branch parallel denoising strategy. This approach injects latent representations of target regions into the global representation space while maintaining background integrity through a reference trajectory. Extensive evaluations on MIRA-Bench and RefEdit-Bench demonstrate that our framework significantly outperforms existing methods in achieving precise instance-level modifications while preserving background consistency. Our benchmark and code are available at https://github.com/ZiqianLiu666/MIRAGE.
- Abstract(参考訳): FLUX.2やQwen-Image-Editのようなモデルでは、命令誘導による画像編集が顕著な進歩を遂げているが、個々の編集を必要とする複数の類似のインスタンスで複雑なシナリオに苦戦している。
我々は,複数の同一事例や複合命令に直面する場合,最先端のモデルでは過編集や空間的不整合に悩まされていることを観察する。
そこで本研究では,マルチインスタンスおよびマルチインストラクション設定におけるきめ細かい一貫性を評価するための総合的なベンチマークを提案する。
本稿では,本ベンチマークで観測された既存手法の故障に対処するため,高精度かつ局所的な編集を可能にするトレーニングフリーフレームワークであるガイド編集(MIRAGE)によるマルチインスタンス地域アライメントを提案する。
視覚言語モデルを利用して複雑な命令を地域サブセットにパースすることで、MIRAGEはマルチブランチ並列化戦略を採用する。
このアプローチは、参照軌跡を通して背景整合性を維持しながら、対象領域の潜在表現を大域表現空間に注入する。
MIRA-Bench と RefEdit-Bench の広範囲な評価により,我々のフレームワークは,背景の一貫性を維持しつつ,正確なインスタンスレベルの修正を実現する上で,既存の手法を著しく上回っていることが示された。
私たちのベンチマークとコードはhttps://github.com/ZiqianLiu666/MIRAGE.comで公開されています。
関連論文リスト
- InstanceRSR: Real-World Super-Resolution via Instance-Aware Representation Alignment [6.761263337778605]
生成前の手法に基づく超解像法は、高品質で一貫した再構成を創出する際、顕著な進歩を遂げた。
しかし、複雑な現実世界のシーンにおいて、さまざまなオブジェクトインスタンスの詳細な詳細を回復するのに苦労することが多い。
この制限は主に、一般的に採用されているデノナイジング損失(例えば、MSE)が、インスタンスレベルの認識と回復を無視しながら、本質的にグローバルな一貫性を好んでいるためである。
論文 参考訳(メタデータ) (2026-03-25T12:27:58Z) - ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models [4.257440824082894]
ChartEditBenchは、コードによるインクリメンタルで視覚的なグラフ編集のためのベンチマークです。
以前のワンショットベンチマークとは異なり、ChartEditBenchは持続的でコンテキスト対応の編集を評価する。
最先端のMLLMを用いた実験では、エラーの蓄積と共有コンテキストの分解により、マルチターン設定が大幅に劣化することが示された。
論文 参考訳(メタデータ) (2026-02-17T17:45:34Z) - The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment [105.31858867473845]
ImageCriticはエージェントフレームワークに統合され、不整合を自動的に検出し、マルチラウンドおよびローカル編集で修正する。
実験では、ImageCriticは様々なカスタマイズされた生成シナリオで詳細に関連する問題を効果的に解決することができ、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-25T18:40:25Z) - UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization [50.75654397516163]
様々な解像度とモダリティに対応する統一フレームワークであるRelayFormerを提案する。
RelayFormerは、入力を固定サイズのサブイメージに分割し、Global-Local Relay(GLR)トークンを導入する。
これにより、セマンティックや時間的一貫性などのグローバルなキューを効率よく交換でき、きめ細かいアーティファクトを保存できる。
論文 参考訳(メタデータ) (2025-08-13T03:35:28Z) - ComplexBench-Edit: Benchmarking Complex Instruction-Driven Image Editing via Compositional Dependencies [13.525744033075785]
実世界のシナリオは複雑なマルチステップ命令、特に操作が相互依存しているチェーンの命令を含むことが多い。
現在のモデルではこれらの複雑なディレクティブに苦労しており、既存のベンチマークではそのような機能の評価が不十分である。
複雑・マルチインストラクション・チェーンに依存した画像編集タスクにおいて,モデル性能を体系的に評価する新しいベンチマークであるcomplexBench-Editを導入する。
論文 参考訳(メタデータ) (2025-06-15T12:22:55Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-11T11:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。