論文の概要: Perceptual Quality Assessment of Omnidirectional Audio-visual Signals
- arxiv url: http://arxiv.org/abs/2307.10813v1
- Date: Thu, 20 Jul 2023 12:21:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:08:28.181469
- Title: Perceptual Quality Assessment of Omnidirectional Audio-visual Signals
- Title(参考訳): 全方位音声視覚信号の知覚品質評価
- Authors: Xilei Zhu, Huiyu Duan, Yuqin Cao, Yuxin Zhu, Yucheng Zhu, Jing Liu, Li
Chen, Xiongkuo Min, Guangtao Zhai
- Abstract要約: 全方向ビデオ(ODV)の既存の品質評価研究は、ビデオの視覚的歪みのみに焦点を当てている。
本稿では,ODVのための大規模オーディオ・視覚品質評価データセットを最初に構築する。
そして,全方位オーディオ視覚品質評価(OAVQA)のための3つのベースライン手法を設計する。
- 参考スコア(独自算出の注目度): 37.73157112698111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omnidirectional videos (ODVs) play an increasingly important role in the
application fields of medical, education, advertising, tourism, etc. Assessing
the quality of ODVs is significant for service-providers to improve the user's
Quality of Experience (QoE). However, most existing quality assessment studies
for ODVs only focus on the visual distortions of videos, while ignoring that
the overall QoE also depends on the accompanying audio signals. In this paper,
we first establish a large-scale audio-visual quality assessment dataset for
omnidirectional videos, which includes 375 distorted omnidirectional
audio-visual (A/V) sequences generated from 15 high-quality pristine
omnidirectional A/V contents, and the corresponding perceptual audio-visual
quality scores. Then, we design three baseline methods for full-reference
omnidirectional audio-visual quality assessment (OAVQA), which combine existing
state-of-the-art single-mode audio and video QA models via multimodal fusion
strategies. We validate the effectiveness of the A/V multimodal fusion method
for OAVQA on our dataset, which provides a new benchmark for omnidirectional
QoE evaluation. Our dataset is available at https://github.com/iamazxl/OAVQA.
- Abstract(参考訳): 医療、教育、広告、観光などの分野において、Omnidirectional Video (ODV) はますます重要な役割を担っている。
ODVの品質を評価することは、サービスプロデューサにとってユーザのQuality of Experience(QoE)を改善する上で重要である。
しかし、既存のODVの品質評価研究はビデオの歪みにのみ焦点を当てているが、全体的なQoEは付随する音声信号にも依存している。
本稿では,まず,高画質全方向A/Vコンテンツから生成される375個の全方向オーディオ視覚(A/V)シーケンスと,それに対応する知覚的オーディオ視覚品質スコアを含む,全方向ビデオのための大規模オーディオ視覚品質評価データセットを確立する。
そこで,本研究では,マルチモーダル融合戦略を用いて,既存の単一モードオーディオおよびビデオQAモデルを組み合わせた全方位オーディオ視覚品質評価(OAVQA)のための3つのベースライン手法を設計する。
我々は,OAVQAに対するA/Vマルチモーダル融合法の有効性を検証し,全方位QoE評価のための新しいベンチマークを提供する。
私たちのデータセットはhttps://github.com/iamazxl/oavqaで利用可能です。
関連論文リスト
- Perceptual Depth Quality Assessment of Stereoscopic Omnidirectional Images [10.382801621282228]
立体視全方位画像の高能率非参照(NR)深度品質評価のための目標品質評価モデルDQIを開発した。
人間の視覚システム(HVS)の知覚特性に触発されたDQIは,多色チャネル,適応型ビューポート選択,眼間不一致の特徴を基盤として構築されている。
論文 参考訳(メタデータ) (2024-08-19T16:28:05Z) - How Does Audio Influence Visual Attention in Omnidirectional Videos? Database and Model [50.15552768350462]
本稿では,全方向ビデオ(ODV)における音声・視覚的注意を主観的視点と客観的視点の両方から包括的に検討する。
AVS-ODVデータベースに基づく新たなベンチマークを構築した。
論文 参考訳(メタデータ) (2024-08-10T02:45:46Z) - Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。
我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。
本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - Audio-visual Saliency for Omnidirectional Videos [58.086575606742116]
私たちはまず、全方向ビデオ(AVS-ODV)のための最大のオーディオ・ビジュアル・サリエンシデータセットを確立する。
AVS-ODVデータセットに基づく全方位音響モーダル性および視覚シーン下での観察者の視覚的注意行動を分析する。
論文 参考訳(メタデータ) (2023-11-09T08:03:40Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - Audio-Visual Quality Assessment for User Generated Content: Database and
Method [61.970768267688086]
既存のVQA研究の多くは、ユーザのQoEが付随する音声信号にも依存していることを無視して、ビデオの視覚的歪みのみに焦点を当てている。
SJTU-UAVデータベースと呼ばれる最初のAVQAデータベースを構築する。
また、サポートベクタ回帰器(SVR)を介して、一般的なVQA手法とオーディオ機能を融合したAVQAモデルのファミリーを設計する。
実験の結果,VQAモデルは,音声信号の助けを借りて,より正確な品質評価を行うことができた。
論文 参考訳(メタデータ) (2023-03-04T11:49:42Z) - A Comprehensive Survey on Video Saliency Detection with Auditory
Information: the Audio-visual Consistency Perceptual is the Key! [25.436683033432086]
ビデオサリエンシ検出(VSD)は、あるビデオクリップの中で最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。
本稿では,音声・視覚融合と唾液度検出のギャップを埋めるために,広範囲なレビューを行う。
論文 参考訳(メタデータ) (2022-06-20T07:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。