論文の概要: Audio-Visual Quality Assessment for User Generated Content: Database and
Method
- arxiv url: http://arxiv.org/abs/2303.02392v2
- Date: Wed, 27 Dec 2023 06:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 23:31:37.718948
- Title: Audio-Visual Quality Assessment for User Generated Content: Database and
Method
- Title(参考訳): ユーザ生成コンテンツの音質評価:データベースと方法
- Authors: Yuqin Cao, Xiongkuo Min, Wei Sun, Xiaoping Zhang, Guangtao Zhai
- Abstract要約: 既存のVQA研究の多くは、ユーザのQoEが付随する音声信号にも依存していることを無視して、ビデオの視覚的歪みのみに焦点を当てている。
SJTU-UAVデータベースと呼ばれる最初のAVQAデータベースを構築する。
また、サポートベクタ回帰器(SVR)を介して、一般的なVQA手法とオーディオ機能を融合したAVQAモデルのファミリーを設計する。
実験の結果,VQAモデルは,音声信号の助けを借りて,より正確な品質評価を行うことができた。
- 参考スコア(独自算出の注目度): 61.970768267688086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the explosive increase of User Generated Content (UGC), UGC video
quality assessment (VQA) becomes more and more important for improving users'
Quality of Experience (QoE). However, most existing UGC VQA studies only focus
on the visual distortions of videos, ignoring that the user's QoE also depends
on the accompanying audio signals. In this paper, we conduct the first study to
address the problem of UGC audio and video quality assessment (AVQA).
Specifically, we construct the first UGC AVQA database named the SJTU-UAV
database, which includes 520 in-the-wild UGC audio and video (A/V) sequences,
and conduct a user study to obtain the mean opinion scores of the A/V
sequences. The content of the SJTU-UAV database is then analyzed from both the
audio and video aspects to show the database characteristics. We also design a
family of AVQA models, which fuse the popular VQA methods and audio features
via support vector regressor (SVR). We validate the effectiveness of the
proposed models on the three databases. The experimental results show that with
the help of audio signals, the VQA models can evaluate the perceptual quality
more accurately. The database will be released to facilitate further research.
- Abstract(参考訳): ユーザ生成コンテンツ(UGC)の爆発的な増加に伴い,UGCビデオ品質評価(VQA)は,ユーザエクスペリエンスの品質向上(QoE)においてますます重要になっている。
しかしながら、既存のUGC VQA研究のほとんどは、ユーザのQoEが付随する音声信号にも依存していることを無視して、ビデオの視覚的歪みのみに焦点を当てている。
本稿では,UGCオーディオと映像品質評価(AVQA)の課題に対処するための最初の研究を行う。
具体的には、sjtu-uavデータベースと呼ばれる最初のucc avqaデータベースを構築し、520個のin-the-wild ugc audio and video (a/v)シーケンスを含む。
SJTU-UAVデータベースの内容は、音声とビデオの両方から分析され、データベースの特徴を示す。
また,サポートベクトル回帰器(SVR)を介して,一般的なVQA手法とオーディオ機能を融合したAVQAモデルのファミリーを設計する。
提案モデルの有効性を3つのデータベース上で検証する。
実験の結果,VQAモデルは音声信号を用いて知覚品質をより正確に評価できることがわかった。
データベースは、さらなる研究を促進するためにリリースされる。
関連論文リスト
- CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models [71.06007696593704]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z) - Perceptual Quality Assessment of Omnidirectional Audio-visual Signals [37.73157112698111]
全方向ビデオ(ODV)の既存の品質評価研究は、ビデオの視覚的歪みのみに焦点を当てている。
本稿では,ODVのための大規模オーディオ・視覚品質評価データセットを最初に構築する。
そして,全方位オーディオ視覚品質評価(OAVQA)のための3つのベースライン手法を設計する。
論文 参考訳(メタデータ) (2023-07-20T12:21:26Z) - StarVQA+: Co-training Space-Time Attention for Video Quality Assessment [56.548364244708715]
自己注意に基づくトランスフォーマーは多くのコンピュータビジョンタスクで大きな成功を収めた。
しかし,ビデオ品質評価(VQA)への適用は今のところ不十分である。
本稿では,StarVQA+と呼ばれる,VQA問題に対する協調学習型空間時間注意ネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T14:27:31Z) - SB-VQA: A Stack-Based Video Quality Assessment Framework for Video
Enhancement [0.40777876591043155]
本稿では,ビデオ品質評価(VQA)のためのスタックベースのフレームワークを提案する。
拡張ビデオのためのVQAフレームワークの提案に加えて、プロが生成するコンテンツ(PGC)に対するVQAの適用についても検討する。
実験により,既存のVQAアルゴリズムをPGCビデオに適用できることが実証された。
論文 参考訳(メタデータ) (2023-05-15T07:44:10Z) - MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos [39.06800945430703]
我々は、第一種主観的Live VQAデータベースを構築し、効果的な評価ツールを開発する。
textbfMD-VQAは、Live VQAデータベースと既存の圧縮VQAデータベースの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-27T06:17:10Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。