論文の概要: RealDrag: The First Dragging Benchmark with Real Target Image
- arxiv url: http://arxiv.org/abs/2512.12287v1
- Date: Sat, 13 Dec 2025 11:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.201309
- Title: RealDrag: The First Dragging Benchmark with Real Target Image
- Title(参考訳): RealDrag: リアルターゲットイメージを使った最初のドラッグ型ベンチマーク
- Authors: Ahmad Zafarani, Zahra Dehghanian, Mohammadreza Davoodi, Mohsen Shadroo, MohammadAmin Fazli, Hamid R. Rabiee,
- Abstract要約: textbfRealDragは、点ベースの画像編集のための最初の包括的なベンチマークであり、ペアの接地真理ターゲット画像を含んでいる。
私たちのデータセットには、さまざまなビデオソースから400以上の人間の注釈付きサンプルが含まれています。
また、Semantical Distance(SeD)、Outer Mask Preserving Score(OMPS)、Inner Patch Preserving Score(IPPS)、Directional similarity(DiS)の4つの新しいタスク特化指標を提案する。
- 参考スコア(独自算出の注目度): 9.439854281295803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of drag based image editing models is unreliable due to a lack of standardized benchmarks and metrics. This ambiguity stems from inconsistent evaluation protocols and, critically, the absence of datasets containing ground truth target images, making objective comparisons between competing methods difficult. To address this, we introduce \textbf{RealDrag}, the first comprehensive benchmark for point based image editing that includes paired ground truth target images. Our dataset contains over 400 human annotated samples from diverse video sources, providing source/target images, handle/target points, editable region masks, and descriptive captions for both the image and the editing action. We also propose four novel, task specific metrics: Semantical Distance (SeD), Outer Mask Preserving Score (OMPS), Inner Patch Preserving Score (IPPS), and Directional Similarity (DiS). These metrics are designed to quantify pixel level matching fidelity, check preservation of non edited (out of mask) regions, and measure semantic alignment with the desired task. Using this benchmark, we conduct the first large scale systematic analysis of the field, evaluating 17 SOTA models. Our results reveal clear trade offs among current approaches and establish a robust, reproducible baseline to guide future research. Our dataset and evaluation toolkit will be made publicly available.
- Abstract(参考訳): 標準ベンチマークやメトリクスが欠如しているため、ドラッグベースの画像編集モデルの評価は信頼性が低い。
この曖昧さは、一貫性のない評価プロトコルに起因し、重要なことに、真理目標画像を含むデータセットが存在しないため、競合する手法の客観的比較が困難である。
この問題に対処するために,2組の接地真理対象画像を含む点ベース画像編集のための,最初の総合的なベンチマークである \textbf{RealDrag} を導入する。
我々のデータセットには、様々なビデオソースからの400以上の注釈付きサンプルが含まれており、ソース/ターゲット画像、ハンド/ターゲットポイント、編集可能な領域マスク、画像と編集動作の両方のための記述的なキャプションが提供されている。
また、Semantical Distance(SeD)、Outer Mask Preserving Score(OMPS)、Inner Patch Preserving Score(IPPS)、Directional similarity(DiS)の4つの新しいタスク特化指標を提案する。
これらのメトリクスは、ピクセルレベルの整合性の定量化、非編集領域(マスク外)の保存の確認、および所望のタスクとのセマンティックアライメントの測定のために設計されている。
このベンチマークを用いて17のSOTAモデルを評価し,最初の大規模体系解析を行った。
この結果から,現在のアプローチ間のトレードオフを明確にし,今後の研究を導くための堅牢で再現可能なベースラインを確立した。
データセットと評価ツールキットを公開します。
関連論文リスト
- UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。
新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:38:37Z) - Latent Space Disentanglement in Diffusion Transformers Enables Zero-shot Fine-grained Semantic Editing [4.948910649137149]
Diffusion Transformer (DiTs) は多種多様な高品質のテキスト・トゥ・イメージ(T2I)生成において顕著な成功を収めた。
テキストと画像の潜伏者が、生成した画像のセマンティクスに、個々と共同でどのように貢献するかを検討する。
ゼロショットきめ細かい画像編集のための簡易かつ効果的な抽出マニピュレーション・サンプル・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T19:00:52Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。