論文の概要: PROVE: A Perceptual RemOVal cohErence Benchmark for Visual Media
- arxiv url: http://arxiv.org/abs/2605.14534v1
- Date: Thu, 14 May 2026 08:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.707365
- Title: PROVE: A Perceptual RemOVal cohErence Benchmark for Visual Media
- Title(参考訳): PROVE: 視覚メディアのための知覚的RemOVal cohErenceベンチマーク
- Authors: Fuhao Li, Shaofeng You, Jiagao Hu, Yu Liu, Yuxuan Chen, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan,
- Abstract要約: 除去コヒーレンス(Delete Coherence, RC)は、画像やビデオにおける物体の除去を評価するための、知覚に整合したメトリクスのペアである。
PROVE-Benchは、モーション強化と組み合わせた80ビデオデータセットであるPROVE-Mと、根拠のない100ビデオの挑戦的なサブセットであるPROVE-Hからなる、2層の実世界のベンチマークである。
RCは、既存の評価プロトコルよりも、人間の判断と大きく一致している。
- 参考スコア(独自算出の注目度): 21.389863264401175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating object removal in images and videos remains challenging because the task is inherently one-to-many, yet existing metrics frequently disagree with human perception. Full-reference metrics reward copy-paste behaviors over genuine erasure; no-reference metrics suffer from systematic biases such as favoring blurry results; and global temporal metrics are insensitive to localized artifacts within edited regions. To address these limitations, we propose RC (Removal Coherence), a pair of perception-aligned metrics: RC-S, which measures spatial coherence via sliding-window feature comparison between masked and background regions, and RC-T, which measures temporal consistency via distribution tracking within shared restored regions across adjacent frames. To validate RC and support community benchmarking, we further introduce PROVE-Bench, a two-tier real-world benchmark comprising PROVE-M, an 80-video paired dataset with motion augmentation, and PROVE-H, a 100-video challenging subset without ground truth. Together, RC metrics and PROVE-Bench form the PROVE (Perceptual RemOVal cohErence) evaluation framework for visual media. Experiments across diverse image and video benchmarks demonstrate that RC achieves substantially stronger alignment with human judgments than existing evaluation protocols. The code for RC metrics and PROVE-Bench are publicly available at: https://github.com/xiaomi-research/prove/.
- Abstract(参考訳): 画像やビデオにおけるオブジェクトの除去を評価することは、本来は1対多の作業であるが、既存のメトリクスは人間の知覚とよく一致しないため、依然として難しい。
完全な参照メトリクスは、真の消去よりもコピー・ペースト行動に報いる; 参照しないメトリクスは、ぼやけた結果を好むなどの体系的なバイアスに悩まされる; グローバルな時間的メトリクスは、編集された領域内の局所化されたアーティファクトに無関心である。
マスクと背景領域のスライディングウインドウ特徴比較により空間コヒーレンスを測定するRC-Sと、隣接フレーム間の共有復元領域内における分布追跡による時間的一貫性を測定するRC-Tを提案する。
RCを検証し,コミュニティのベンチマークをサポートするために,PROVE-Bench,PROVE-M,80ビデオのペア化データセット,100ビデオの挑戦的サブセットであるPROVE-Hを紹介する。
RCメトリクスとPROVE-Benchは、ビジュアルメディアのためのPROVE(Perceptual RemOVal cohErence)評価フレームワークを構成する。
様々な画像とビデオのベンチマークによる実験により、RCは既存の評価プロトコルよりも人間の判断とかなり強く一致していることが示されている。
RCメトリクスとPROVE-Benchのコードは、https://github.com/xiaomi-research/prove/.comで公開されている。
関連論文リスト
- How to Evaluate and Refine your CAM [53.11885076524431]
クラス属性マップ(CAM)は、畳み込みニューラルネットワークの決定に関する局所的な説明を提供する。
最もよく使われるCAM法は低分解能属性写像を生成するが、その有用性は詳細な解釈可能性に制限される。
我々は,CAM評価指標の厳密な比較を可能にする,地上構造属性を持つ合成データセットを提案する。
低分解能問題に対処するために,複数のネットワーク層にまたがるCAMを集約して高分解能属性マップを生成するRefineCAMを導入する。
論文 参考訳(メタデータ) (2026-05-14T09:57:21Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed and Low Tolerance [0.562479170374811]
Per-IMage Overlap(PIMO)は、AUROCとAUPROの欠点に対処する新しいメトリクスである。
画像ごとのリコールの測定は、計算を単純化し、ノイズの多いアノテーションに対してより堅牢である。
実験の結果,PIMOは実用的優位性があり,性能の見識に乏しいことがわかった。
論文 参考訳(メタデータ) (2024-01-03T21:24:44Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Local-Global Associative Frame Assemble in Video Re-ID [57.7470971197962]
ビデオ列から自動生成されたオブジェクト境界ボックスにおける雑音および非表現フレームは、ビデオ再識別(Re-ID)における識別表現の学習に困難をもたらす
既存の手法の多くは、局所的な部分アライメントまたはグローバルな外観相関によって、ビデオフレームの重要性を個別に評価することで、この問題に対処している。
本研究では,局所的なアライメントとグローバルな相関関係を共同で検討し,相互の促進・強化について考察する。
論文 参考訳(メタデータ) (2021-10-22T19:07:39Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。