論文の概要: MVAD: A Multiple Visual Artifact Detector for Video Streaming
- arxiv url: http://arxiv.org/abs/2406.00212v1
- Date: Fri, 31 May 2024 21:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:13:57.175707
- Title: MVAD: A Multiple Visual Artifact Detector for Video Streaming
- Title(参考訳): MVAD:ビデオストリーミングのための複数のビジュアルアーティファクト検出器
- Authors: Chen Feng, Duolikun Danier, Fan Zhang, David Bull,
- Abstract要約: ヴィジュアルアーティファクトは、しばしば、コンテンツ制作と配信の間、一般的な条件のために、ストリーミングされたビデオコンテンツに導入される。
既存の検出方法は、単一の種類のアーティファクトに焦点を当て、客観的な品質指標をしきい値にすることで、アーティファクトの存在を判断することが多い。
本稿では,ビデオストリーミングのためのマルチビジュアルアーティファクト検出器 MVAD を提案する。
- 参考スコア(独自算出の注目度): 7.782835693566871
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual artifacts are often introduced into streamed video content, due to prevailing conditions during content production and/or delivery. Since these can degrade the quality of the user's experience, it is important to automatically and accurately detect them in order to enable effective quality measurement and enhancement. Existing detection methods often focus on a single type of artifact and/or determine the presence of an artifact through thresholding objective quality indices. Such approaches have been reported to offer inconsistent prediction performance and are also impractical for real-world applications where multiple artifacts co-exist and interact. In this paper, we propose a Multiple Visual Artifact Detector, MVAD, for video streaming which, for the first time, is able to detect multiple artifacts using a single framework that is not reliant on video quality assessment models. Our approach employs a new Artifact-aware Dynamic Feature Extractor (ADFE) to obtain artifact-relevant spatial features within each frame for multiple artifact types. The extracted features are further processed by a Recurrent Memory Vision Transformer (RMViT) module, which captures both short-term and long-term temporal information within the input video. The proposed network architecture is optimized in an end-to-end manner based on a new, large and diverse training database that is generated by simulating the video streaming pipeline and based on Adversarial Data Augmentation. This model has been evaluated on two video artifact databases, Maxwell and BVI-Artifact, and achieves consistent and improved prediction results for ten target visual artifacts when compared to seven existing single and multiple artifact detectors. The source code and training database will be available at https://chenfeng-bristol.github.io/MVAD/.
- Abstract(参考訳): ビジュアルアーティファクトは、しばしば、コンテンツ制作および/または配信中に一般的な条件のために、ストリーミングされたビデオコンテンツに導入される。
これらはユーザ体験の質を劣化させる可能性があるため、効果的な品質測定と向上を可能にするために、自動的に正確に検出することが重要である。
既存の検出方法は、単一の種類のアーティファクトに焦点を当てたり、あるいは客観的な品質指標をしきい値にすることで、アーティファクトの存在を判定することが多い。
このようなアプローチは一貫性のない予測性能を提供すると報告されており、複数のアーティファクトが共存し相互作用する現実世界のアプリケーションには実用的ではない。
本稿では,映像品質評価モデルに依存しない単一のフレームワークを用いて,初めて複数のアーティファクトを検出可能なビデオストリーミング用マルチビジュアルアーティファクト検出器MVADを提案する。
提案手法では,Artifact-aware Dynamic Feature Extractor (ADFE) を用いて,複数のアーティファクトタイプに対して,各フレーム内のアーティファクト関連空間的特徴を求める。
抽出した特徴は、リカレントメモリビジョン変換器(RMViT)モジュールによってさらに処理され、入力ビデオ内の短期情報と長期情報の両方をキャプチャする。
提案するネットワークアーキテクチャは,ビデオストリーミングパイプラインをシミュレートし,Adversarial Data Augmentationに基づいて生成された,大規模かつ多様なトレーニングデータベースに基づいて,エンドツーエンドで最適化されている。
このモデルは、MaxwellとBVI-Artifactの2つのビデオアーティファクトデータベースで評価され、既存の7つの単一および複数のアーティファクト検出器と比較して、10のターゲット視覚アーティファクトに対して一貫性と改善された予測結果が得られた。
ソースコードとトレーニングデータベースはhttps://chenfeng-bristol.github.io/MVAD/.com/で入手できる。
関連論文リスト
- VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - BVI-Artefact: An Artefact Detection Benchmark Dataset for Streamed
Videos [7.5806062386946245]
この研究は、ストリームされたPGC内のアーティファクト検出のための包括的なベンチマークの欠如に対処する。
ビデオストリーミングにおいて最も関連性の高い10種類のアーティファクトを考慮し,480の動画シーケンスを収集,生成した。
その結果、これらの課題の難易度が示され、より信頼性の高い人工物検出方法の必要性が示唆された。
論文 参考訳(メタデータ) (2023-12-14T12:28:54Z) - CapST: An Enhanced and Lightweight Model Attribution Approach for
Synthetic Videos [9.209808258321559]
本稿では、最近提案されたデータセット、DFDM(Deepfakes from Different Models)からのDeepfakeビデオのモデル属性問題について検討する。
データセットは、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの異なるモデルによって生成された6,450のDeepfakeビデオからなる。
ディープフェイク・ベンチマーク・データセット(DFDM)による実験結果から提案手法の有効性が示され、ディープフェイク・ビデオの正確な分類において最大4%の改善が達成された。
論文 参考訳(メタデータ) (2023-11-07T08:05:09Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - Saliency-Aware Spatio-Temporal Artifact Detection for Compressed Video
Quality Assessment [16.49357671290058]
圧縮されたビデオは、しばしば知覚可能なテンポラルアーティファクト(PEAs)として知られる視覚的に厄介なアーティファクトを示す。
本稿では,4つの空間的PEA(ブラーリング,ブロッキング,出血,リング)と2つの時間的PEA(フリックリング,フローティング)が映像品質に与える影響について検討する。
6種類のPEAに基づいて,SSTAM(Saliency-Aware Spatio-Temporal Artifacts Measurement)と呼ばれる品質指標を提案する。
論文 参考訳(メタデータ) (2023-01-03T12:48:27Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。