論文の概要: Telepresence Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2207.09956v1
- Date: Wed, 20 Jul 2022 15:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 14:08:22.926533
- Title: Telepresence Video Quality Assessment
- Title(参考訳): テレプレゼンスビデオの品質評価
- Authors: Zhenqiang Ying and Deepti Ghadiyaram and Alan Bovik
- Abstract要約: ライブストリーミングのためのオンラインビデオ品質予測フレームワークを、視覚的およびオーディオ的品質予測を計算するための別々の経路を持つマルチモーダル学習フレームワークを用いて作成する。
私たちのオールインワンモデルは、パッチ、フレーム、クリップ、オーディオヴィジュアルレベルで正確な品質予測を提供することができます。
- 参考スコア(独自算出の注目度): 13.417089780219326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video conferencing, which includes both video and audio content, has
contributed to dramatic increases in Internet traffic, as the COVID-19 pandemic
forced millions of people to work and learn from home. Global Internet traffic
of video conferencing has dramatically increased Because of this, efficient and
accurate video quality tools are needed to monitor and perceptually optimize
telepresence traffic streamed via Zoom, Webex, Meet, etc. However, existing
models are limited in their prediction capabilities on multi-modal, live
streaming telepresence content. Here we address the significant challenges of
Telepresence Video Quality Assessment (TVQA) in several ways. First, we
mitigated the dearth of subjectively labeled data by collecting ~2k
telepresence videos from different countries, on which we crowdsourced ~80k
subjective quality labels. Using this new resource, we created a
first-of-a-kind online video quality prediction framework for live streaming,
using a multi-modal learning framework with separate pathways to compute visual
and audio quality predictions. Our all-in-one model is able to provide accurate
quality predictions at the patch, frame, clip, and audiovisual levels. Our
model achieves state-of-the-art performance on both existing quality databases
and our new TVQA database, at a considerably lower computational expense,
making it an attractive solution for mobile and embedded systems.
- Abstract(参考訳): ビデオ会議はビデオとオーディオの両方を含んでおり、新型コロナウイルス(covid-19)のパンデミックで何百万人もの人々が在宅勤務や学習を余儀なくされ、インターネットトラフィックが劇的に増加した。
ビデオ会議のグローバルなインターネットトラフィックは、zoom、webex、meetなどを通じてストリーミングされるテレプレゼンストラフィックをモニタし、知覚的に最適化するために、効率的で正確なビデオ品質ツールが必要であるため、劇的に増加している。
しかし、既存のモデルは、マルチモーダルなライブストリーミングテレプレゼンスコンテンツの予測能力に制限がある。
本稿では,テレプレゼンス映像品質評価(TVQA)の課題を,いくつかの方法で解決する。
まず、異なる国から約2kのテレプレゼンス動画を収集し、主観的品質のラベルをクラウドソースすることで、主観的ラベル付きデータの重大さを軽減した。
この新しいリソースを使って、ライブストリーミングのための初めてのオンラインビデオ品質予測フレームワークを作成し、視覚とオーディオの品質予測を計算するために、別々の経路を持つマルチモーダル学習フレームワークを使用しました。
当社のオールインワンモデルは、パッチ、フレーム、クリップ、オーディオビジュアルレベルでの正確な品質予測を提供することができます。
我々のモデルは,既存の品質データベースと新しいTVQAデータベースの両方において,計算コストを大幅に削減して最先端の性能を実現し,モバイルおよび組み込みシステムにとって魅力的なソリューションとなる。
関連論文リスト
- CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - Blind VQA on 360{\deg} Video via Progressively Learning from Pixels,
Frames and Video [66.57045901742922]
360度ビデオにおけるブラインド視覚品質評価(BVQA)は,没入型マルチメディアシステムの最適化において重要な役割を担っている。
本稿では,球面映像品質に対する人間の知覚の進歩的パラダイムを考察する。
画素,フレーム,ビデオから段階的に学習することで,360度ビデオのための新しいBVQA手法(ProVQA)を提案する。
論文 参考訳(メタデータ) (2021-11-18T03:45:13Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z) - RAPIQUE: Rapid and Accurate Video Quality Prediction of User Generated
Content [44.03188436272383]
RAPIQUE(Rapid and Accurate Video Quality Evaluator)をダブする、コンテンツのための効率的で効率的なビデオ品質モデルを紹介します。
RAPIQUEは、品質認識のシーン統計機能と意味認識の深い畳み込み機能の両方の利点を組み合わせて活用します。
最近の大規模なビデオ品質データベースに関する実験結果から、RAPIQUEはすべてのデータセットで最高のパフォーマンスを計算コストを大幅に削減できます。
論文 参考訳(メタデータ) (2021-01-26T17:23:46Z) - Patch-VQ: 'Patching Up' the Video Quality Problem [0.9786690381850356]
No-Reference (NR) Perceptual Video Quality Assessment (VQA) は、ソーシャルメディアおよびストリーミングメディアアプリケーションにおいて複雑で未解決で重要な問題である。
現在のNRモデルでは、実世界の"In-the-wild"ビデオデータ上での予測能力に制限がある。
私たちは、39,000の現実世界の歪曲したビデオと117,000の空間的局所化されたビデオパッチを含む、最も大きな(遠くまで)主観的なビデオ品質データセットを作成します。
論文 参考訳(メタデータ) (2020-11-27T03:46:44Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z) - NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep
Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。
このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。
このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文 参考訳(メタデータ) (2020-01-30T15:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。