論文の概要: The DEVIL is in the Details: A Diagnostic Evaluation Benchmark for Video
Inpainting
- arxiv url: http://arxiv.org/abs/2105.05332v1
- Date: Tue, 11 May 2021 20:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:25:36.242636
- Title: The DEVIL is in the Details: A Diagnostic Evaluation Benchmark for Video
Inpainting
- Title(参考訳): the devil is in the details: a diagnostic evaluation benchmark for video inpainting
- Authors: Ryan Szeto, Jason J. Corso
- Abstract要約: 2つのコントリビューションからなるDEVIL(Video Inpainting on Landscapes)ベンチマークの診断評価を提案する。
私たちの挑戦的なベンチマークは、ビデオインペインティングメソッドをより洞察に富んだ分析を可能にし、この分野の診断ツールとして役立ちます。
- 参考スコア(独自算出の注目度): 43.90848669491335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantitative evaluation has increased dramatically among recent video
inpainting work, but the video and mask content used to gauge performance has
received relatively little attention. Although attributes such as camera and
background scene motion inherently change the difficulty of the task and affect
methods differently, existing evaluation schemes fail to control for them,
thereby providing minimal insight into inpainting failure modes. To address
this gap, we propose the Diagnostic Evaluation of Video Inpainting on
Landscapes (DEVIL) benchmark, which consists of two contributions: (i) a novel
dataset of videos and masks labeled according to several key inpainting failure
modes, and (ii) an evaluation scheme that samples slices of the dataset
characterized by a fixed content attribute, and scores performance on each
slice according to reconstruction, realism, and temporal consistency quality.
By revealing systematic changes in performance induced by particular
characteristics of the input content, our challenging benchmark enables more
insightful analysis into video inpainting methods and serves as an invaluable
diagnostic tool for the field. Our code is available at
https://github.com/MichiganCOG/devil .
- Abstract(参考訳): 近年の映像塗装作品では定量的評価が劇的に向上しているが,性能評価に使用される映像やマスクの内容は比較的注目されていない。
カメラや背景映像などの属性は、タスクの難易度を本質的に変化させ、メソッドに異なる影響を与えるが、既存の評価スキームはそれらの制御に失敗し、その結果、障害モードに対する最小限の洞察を与える。
このギャップに対処するため,2つのコントリビューションからなるDEVIL(Video Inpainting on Landscapes)ベンチマークを提案する。 (i) 主要なインパインティング障害モードに基づいてラベル付けされたビデオとマスクの新たなデータセット, (ii) 固定コンテンツ属性によって特徴付けられるデータセットのスライスをスライスし, 再現性, リアリズム, 時間的整合性の品質に応じて各スライスのパフォーマンスを評価する評価スキームである。
入力コンテンツの特徴によって生じる性能の体系的変化を明らかにすることで,映像の塗布方法に対するより洞察に富んだ分析を可能にし,現場の診断ツールとして役立てる。
私たちのコードはhttps://github.com/michigancog/devil.comで利用可能です。
関連論文リスト
- Detecting Inpainted Video with Frequency Domain Insights [0.0]
本稿では、検出精度を大幅に向上させる周波数領域洞察ネットワーク(FDIN)を提案する。
公開データセットに対する以前の評価は、FDINが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-09-21T01:51:07Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Transfer of Representations to Video Label Propagation: Implementation
Factors Matter [31.030799003595522]
特徴抽出とラベル伝搬における重要な実装要因の影響について検討する。
映像ベースの通信手段を静止画像ベースで拡張することで、さらなる性能向上が期待できることを示す。
本研究は, 評価実践の改善と, 時間的対応における今後の研究方向性の報知に役立つことを期待する。
論文 参考訳(メタデータ) (2022-03-10T18:58:22Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Unified Quality Assessment of In-the-Wild Videos with Mixed Datasets
Training [20.288424566444224]
我々は、コンピュータビジョンアプリケーションにおいて、Wildビデオの品質を自動評価することに注力する。
品質評価モデルの性能向上のために,人間の知覚から直観を借りる。
複数のデータセットで単一のVQAモデルをトレーニングするための混合データセットトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-11-09T09:22:57Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。