論文の概要: The DEVIL is in the Details: A Diagnostic Evaluation Benchmark for Video
Inpainting
- arxiv url: http://arxiv.org/abs/2105.05332v1
- Date: Tue, 11 May 2021 20:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:25:36.242636
- Title: The DEVIL is in the Details: A Diagnostic Evaluation Benchmark for Video
Inpainting
- Title(参考訳): the devil is in the details: a diagnostic evaluation benchmark for video inpainting
- Authors: Ryan Szeto, Jason J. Corso
- Abstract要約: 2つのコントリビューションからなるDEVIL(Video Inpainting on Landscapes)ベンチマークの診断評価を提案する。
私たちの挑戦的なベンチマークは、ビデオインペインティングメソッドをより洞察に富んだ分析を可能にし、この分野の診断ツールとして役立ちます。
- 参考スコア(独自算出の注目度): 43.90848669491335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantitative evaluation has increased dramatically among recent video
inpainting work, but the video and mask content used to gauge performance has
received relatively little attention. Although attributes such as camera and
background scene motion inherently change the difficulty of the task and affect
methods differently, existing evaluation schemes fail to control for them,
thereby providing minimal insight into inpainting failure modes. To address
this gap, we propose the Diagnostic Evaluation of Video Inpainting on
Landscapes (DEVIL) benchmark, which consists of two contributions: (i) a novel
dataset of videos and masks labeled according to several key inpainting failure
modes, and (ii) an evaluation scheme that samples slices of the dataset
characterized by a fixed content attribute, and scores performance on each
slice according to reconstruction, realism, and temporal consistency quality.
By revealing systematic changes in performance induced by particular
characteristics of the input content, our challenging benchmark enables more
insightful analysis into video inpainting methods and serves as an invaluable
diagnostic tool for the field. Our code is available at
https://github.com/MichiganCOG/devil .
- Abstract(参考訳): 近年の映像塗装作品では定量的評価が劇的に向上しているが,性能評価に使用される映像やマスクの内容は比較的注目されていない。
カメラや背景映像などの属性は、タスクの難易度を本質的に変化させ、メソッドに異なる影響を与えるが、既存の評価スキームはそれらの制御に失敗し、その結果、障害モードに対する最小限の洞察を与える。
このギャップに対処するため,2つのコントリビューションからなるDEVIL(Video Inpainting on Landscapes)ベンチマークを提案する。 (i) 主要なインパインティング障害モードに基づいてラベル付けされたビデオとマスクの新たなデータセット, (ii) 固定コンテンツ属性によって特徴付けられるデータセットのスライスをスライスし, 再現性, リアリズム, 時間的整合性の品質に応じて各スライスのパフォーマンスを評価する評価スキームである。
入力コンテンツの特徴によって生じる性能の体系的変化を明らかにすることで,映像の塗布方法に対するより洞察に富んだ分析を可能にし,現場の診断ツールとして役立てる。
私たちのコードはhttps://github.com/michigancog/devil.comで利用可能です。
関連論文リスト
- Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - Elevating Flow-Guided Video Inpainting with Reference Generation [50.03502211226332]
ビデオインパインティング(VI)は、フレーム間で観測可能なコンテンツを効果的に伝播させながら、オリジナルビデオに存在しない新しいコンテンツを同時に生成する必要がある課題である。
本稿では,より進んだ画素伝搬アルゴリズムと組み合わせて,参照生成のための大規模な生成モデルを活用する,堅牢で実用的なVIフレームワークを提案する。
提案手法は,オブジェクト削除のためのフレームレベルの品質を著しく向上するだけでなく,ユーザが提供するテキストプロンプトに基づいて,欠落した領域の新たなコンテンツを合成する。
論文 参考訳(メタデータ) (2024-12-12T06:13:00Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - Detecting Inpainted Video with Frequency Domain Insights [0.0]
本稿では、検出精度を大幅に向上させる周波数領域洞察ネットワーク(FDIN)を提案する。
公開データセットに対する以前の評価は、FDINが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-09-21T01:51:07Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Transfer of Representations to Video Label Propagation: Implementation
Factors Matter [31.030799003595522]
特徴抽出とラベル伝搬における重要な実装要因の影響について検討する。
映像ベースの通信手段を静止画像ベースで拡張することで、さらなる性能向上が期待できることを示す。
本研究は, 評価実践の改善と, 時間的対応における今後の研究方向性の報知に役立つことを期待する。
論文 参考訳(メタデータ) (2022-03-10T18:58:22Z) - Unified Quality Assessment of In-the-Wild Videos with Mixed Datasets
Training [20.288424566444224]
我々は、コンピュータビジョンアプリケーションにおいて、Wildビデオの品質を自動評価することに注力する。
品質評価モデルの性能向上のために,人間の知覚から直観を借りる。
複数のデータセットで単一のVQAモデルをトレーニングするための混合データセットトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-11-09T09:22:57Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。