Fugu-MT 論文翻訳(概要): Balancing Preservation and Modification: A Region and Semantic Aware Metric for Instruction-Based Image Editing

論文の概要: Balancing Preservation and Modification: A Region and Semantic Aware Metric for Instruction-Based Image Editing

arxiv url: http://arxiv.org/abs/2506.13827v1
Date: Sun, 15 Jun 2025 17:12:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.174356
Title: Balancing Preservation and Modification: A Region and Semantic Aware Metric for Instruction-Based Image Editing
Title（参考訳）: 保存と修正のバランスをとる: 指導に基づく画像編集のための領域と意味的認識メトリクス
Authors: Zhuoying Li, Zhu Xu, Yuxin Peng, Yang Liu,
Abstract要約: バランスの維持と改善(BPM)という新しい指標を紹介します。 BPMは、明示的にイメージを編集関連および非関連領域に切り離すことによって、命令ベースの画像編集に適合する。本稿では,BPMメトリックの総合的な指導編集データに対する有効性を検証するとともに,既存の指標と比較して人的評価に最も適していることを示す。
参考スコア（独自算出の注目度）: 34.02315034113017
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction-based image editing, which aims to modify the image faithfully according to the instruction while preserving irrelevant content unchanged, has made significant progress. However, there still lacks a comprehensive metric for assessing the editing quality. Existing metrics either require high human evaluation costs, which hinder large-scale evaluation, or are adapted from other tasks and lose task-specific concerns, failing to comprehensively evaluate both instruction-based modification and preservation of irrelevant regions, resulting in biased evaluation. To tackle this, we introduce a new metric called Balancing Preservation and Modification (BPM), tailored for instruction-based image editing by explicitly disentangling the image into editing-relevant and irrelevant regions for specific consideration. We first identify and locate editing-relevant regions, followed by a two-tier process to assess editing quality: Region-Aware Judge evaluates whether the position and size of the edited region align with the instruction, and Semantic-Aware Judge further assesses the instruction content compliance within editing-relevant regions as well as content preservation within irrelevant regions, yielding comprehensive and interpretable quality assessment. Moreover, the editing-relevant region localization in BPM can be integrated into image editing approaches to improve editing quality, demonstrating its broad applicability. We verify the effectiveness of the BPM metric on comprehensive instruction-editing data, and the results show the highest alignment with human evaluation compared to existing metrics, indicating its efficacy. Code is available at: https://joyli-x.github.io/BPM/
Abstract（参考訳）: 無関係なコンテンツをそのまま保存しながら、命令に従って忠実に画像を修正することを目的としたインストラクションベースの画像編集は、大きな進歩を遂げた。しかし、編集品質を評価するための包括的な指標がまだ欠けている。既存のメトリクスは、大規模な評価を妨げる高い人的評価コストを必要とするか、他のタスクから適応し、タスク固有の関心を失うかのいずれかであり、命令ベースの修正と無関係な領域の保存の両方を包括的に評価することができず、バイアスのある評価をもたらす。これを解決するために,我々は,特定の考察のために,画像を編集関連領域と非関連領域に明示的に切り離すことにより,命令ベースの画像編集に適した,バランシング保存・修正(BPM)と呼ばれる新しい指標を導入する。領域認識判断は、編集領域の位置と大きさが命令と一致しているかを評価し、セマンティック認識判断は、編集関連領域内だけでなく、非関連領域内でのコンテンツ保存も更に評価し、包括的かつ解釈可能な品質評価をもたらす。さらに、BPMにおける編集関連領域のローカライゼーションは、編集品質を改善するために画像編集アプローチに統合することができ、その広範な適用性を示している。総合的な指導編集データに対するBPMメトリックの有効性を検証し、その結果、既存のメトリクスと比較して人間の評価と最も一致していることを示し、その有効性を示す。コードは、https://joyli-x.github.io/BPM/で入手できる。

関連論文リスト

EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits [22.762414256693265]
テキスト誘導画像編集評価のための新しいベンチマークであるEditInspectorを紹介する。我々はEditInspectorを利用して、編集評価における最先端(SoTA)ビジョンと言語モデルの性能を評価する。以上の結果から,現在のモデルでは,編集を包括的かつ頻繁に評価することは困難であることが示唆された。
論文参考訳（メタデータ） (2025-06-11T17:58:25Z)
MedEBench: Revisiting Text-instructed Image Editing on Medical Domain [3.6550055178925835]
MedEBenchはテキストガイドによる医用画像編集を評価するためのベンチマークである。 13の解剖学的領域にまたがる70のタスクにまたがる1,182の臨床ソースの画像プロンプトからなる。
論文参考訳（メタデータ） (2025-06-02T17:43:01Z)
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文参考訳（メタデータ） (2025-05-16T17:55:54Z)
DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文参考訳（メタデータ） (2025-03-21T02:14:03Z)
Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing [26.086806549826058]
テキスト誘導画像編集は、対象のテキストに基づいて修正を実装しながら、ソース画像の中核要素の保存を求める。既存のメトリクスは、全く異なるソースイメージとターゲットテキストのペアに対して、同じ評価基準を無差別に適用する、文脈の盲点問題を持つ。保存・修正の側面を適応的にコーディネートする文脈対応メトリックであるAugCLIPを提案する。
論文参考訳（メタデータ） (2024-10-15T08:12:54Z)
Ground-A-Score: Scaling Up the Score Distillation for Multi-Attribute Editing [49.419619882284906]
Ground-A-Scoreは、スコア蒸留時のグラウンド処理を取り入れた強力なモデル非依存画像編集法である。新しいペナルティ係数とコントラスト損失を持つ選択的応用は、編集領域を正確にターゲットするのに役立つ。質的評価と定量的分析の両方で、Ground-A-Scoreは拡張および多面的プロンプトの複雑な詳細に順応することを確認した。
論文参考訳（メタデータ） (2024-03-20T12:40:32Z)
LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。 LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文参考訳（メタデータ） (2023-12-14T18:59:59Z)
Rethinking Image Editing Detection in the Era of Generative AI Revolution [13.605053073689751]
GREデータセットは、以下の利点を持つ大規模な生成地域編集データセットである。提案する3つの課題として,編集画像分類,編集手法属性,編集領域ローカライゼーションの3つの実験を行った。 GREデータセットは、生成領域編集検出の分野におけるさらなる研究と探索を促進することを期待する。
論文参考訳（メタデータ） (2023-11-29T07:35:35Z)
Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-18T17:59:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。