論文の概要: LSTM-based Video Quality Prediction Accounting for Temporal Distortions
in Videoconferencing Calls
- arxiv url: http://arxiv.org/abs/2303.12761v1
- Date: Wed, 22 Mar 2023 17:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 13:19:10.664213
- Title: LSTM-based Video Quality Prediction Accounting for Temporal Distortions
in Videoconferencing Calls
- Title(参考訳): ビデオ会議通話における時間歪みのLSTMによる映像品質予測
- Authors: Gabriel Mittag, Babak Naderi, Vishak Gopal, Ross Cutler
- Abstract要約: クラウドソーシングによってラベル付けされた主観的品質評価を用いてLSTMをトレーニングすることにより,このような歪みを自動的にモデル化するデータ駆動型手法を提案する。
ソースビデオにQRコードをマーカとして適用し、アライメントベクトルに基づいてアライメント参照を作成し、時間的特徴を計算する。
提案モデルでは,検証セット上で0.99のPCCを実現し,映像品質障害の原因について詳細な知見を提供する。
- 参考スコア(独自算出の注目度): 22.579711841384764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art video quality models, such as VMAF, give excellent
prediction results by comparing the degraded video with its reference video.
However, they do not consider temporal distortions (e.g., frame freezes or
skips) that occur during videoconferencing calls. In this paper, we present a
data-driven approach for modeling such distortions automatically by training an
LSTM with subjective quality ratings labeled via crowdsourcing. The videos were
collected from live videoconferencing calls in 83 different network conditions.
We applied QR codes as markers on the source videos to create aligned
references and compute temporal features based on the alignment vectors. Using
these features together with VMAF core features, our proposed model achieves a
PCC of 0.99 on the validation set. Furthermore, our model outputs per-frame
quality that gives detailed insight into the cause of video quality
impairments. The VCM model and dataset are open-sourced at
https://github.com/microsoft/Video_Call_MOS.
- Abstract(参考訳): VMAFのような最先端のビデオ品質モデルでは、劣化したビデオと参照ビデオを比較して優れた予測結果が得られる。
しかし、ビデオ会議通話中に発生する時間的歪み(例えばフレームフリーズやスキップ)は考慮されていない。
本稿では,クラウドソーシングによってラベル付けされた主観的品質評価でlstmを訓練することにより,歪みを自動的にモデル化するデータ駆動手法を提案する。
ビデオは83の異なるネットワーク条件でライブビデオ会議から収集された。
ソースビデオにQRコードをマーカとして適用し、アライメントベクトルに基づいてアライメント参照を作成し、時間的特徴を計算する。
これらの特徴とVMAFコアの特徴を併用して,本モデルでは検証セット上で0.99のPCCを実現する。
さらに,本モデルはフレーム単位の品質を出力し,映像品質障害の原因を詳細に把握する。
VCMモデルとデータセットはhttps://github.com/microsoft/Video_Call_MOSでオープンソース化されている。
関連論文リスト
- Buffer Anytime: Zero-Shot Video Depth and Normal from Image Priors [54.8852848659663]
Buffer Anytimeは、ビデオから深さと正規マップ(幾何バッファと呼ばれる)を推定するためのフレームワークです。
時間的整合性制約を持つ単一画像の先行値を活用することによって,高品質なビデオバッファ推定を実証する。
論文 参考訳(メタデータ) (2024-11-26T09:28:32Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - ChipQA: No-Reference Video Quality Prediction via Space-Time Chips [33.12375264668551]
ノン参照ビデオ品質評価(VQA)のための新しいモデルを提案する。
私たちのアプローチでは、スペースタイムチップ(STチップ)と呼ばれる、高度に局所化された時空スライスという新しいアイデアを使用します。
本研究では,動作計算を必要とせずに,最先端の性能を低コストで実現できることを示す。
論文 参考訳(メタデータ) (2021-09-17T19:16:31Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - Noisy-LSTM: Improving Temporal Awareness for Video Semantic Segmentation [29.00635219317848]
本稿では,エンドツーエンドで学習可能なNoisy-LSTMという新しいモデルを提案する。
また,ビデオシーケンスのフレームをノイズに置き換える,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:08:15Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep
Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。
このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。
このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文 参考訳(メタデータ) (2020-01-30T15:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。