論文の概要: Perceptual Quality Assessment of Omnidirectional Audio-visual Signals
- arxiv url: http://arxiv.org/abs/2307.10813v1
- Date: Thu, 20 Jul 2023 12:21:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:08:28.181469
- Title: Perceptual Quality Assessment of Omnidirectional Audio-visual Signals
- Title(参考訳): 全方位音声視覚信号の知覚品質評価
- Authors: Xilei Zhu, Huiyu Duan, Yuqin Cao, Yuxin Zhu, Yucheng Zhu, Jing Liu, Li
Chen, Xiongkuo Min, Guangtao Zhai
- Abstract要約: 全方向ビデオ(ODV)の既存の品質評価研究は、ビデオの視覚的歪みのみに焦点を当てている。
本稿では,ODVのための大規模オーディオ・視覚品質評価データセットを最初に構築する。
そして,全方位オーディオ視覚品質評価(OAVQA)のための3つのベースライン手法を設計する。
- 参考スコア(独自算出の注目度): 37.73157112698111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omnidirectional videos (ODVs) play an increasingly important role in the
application fields of medical, education, advertising, tourism, etc. Assessing
the quality of ODVs is significant for service-providers to improve the user's
Quality of Experience (QoE). However, most existing quality assessment studies
for ODVs only focus on the visual distortions of videos, while ignoring that
the overall QoE also depends on the accompanying audio signals. In this paper,
we first establish a large-scale audio-visual quality assessment dataset for
omnidirectional videos, which includes 375 distorted omnidirectional
audio-visual (A/V) sequences generated from 15 high-quality pristine
omnidirectional A/V contents, and the corresponding perceptual audio-visual
quality scores. Then, we design three baseline methods for full-reference
omnidirectional audio-visual quality assessment (OAVQA), which combine existing
state-of-the-art single-mode audio and video QA models via multimodal fusion
strategies. We validate the effectiveness of the A/V multimodal fusion method
for OAVQA on our dataset, which provides a new benchmark for omnidirectional
QoE evaluation. Our dataset is available at https://github.com/iamazxl/OAVQA.
- Abstract(参考訳): 医療、教育、広告、観光などの分野において、Omnidirectional Video (ODV) はますます重要な役割を担っている。
ODVの品質を評価することは、サービスプロデューサにとってユーザのQuality of Experience(QoE)を改善する上で重要である。
しかし、既存のODVの品質評価研究はビデオの歪みにのみ焦点を当てているが、全体的なQoEは付随する音声信号にも依存している。
本稿では,まず,高画質全方向A/Vコンテンツから生成される375個の全方向オーディオ視覚(A/V)シーケンスと,それに対応する知覚的オーディオ視覚品質スコアを含む,全方向ビデオのための大規模オーディオ視覚品質評価データセットを確立する。
そこで,本研究では,マルチモーダル融合戦略を用いて,既存の単一モードオーディオおよびビデオQAモデルを組み合わせた全方位オーディオ視覚品質評価(OAVQA)のための3つのベースライン手法を設計する。
我々は,OAVQAに対するA/Vマルチモーダル融合法の有効性を検証し,全方位QoE評価のための新しいベンチマークを提供する。
私たちのデータセットはhttps://github.com/iamazxl/oavqaで利用可能です。
関連論文リスト
- CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap [4.922783970210658]
我々は,AIGC映像品質の評価を,視覚調和,映像テキストの整合性,領域分布ギャップの3次元に分類した。
各次元に対して、AIGCビデオの総合的な品質評価を提供するための特定のモジュールを設計する。
本研究は,異なるテキスト・ツー・ビデオ・モデルにより生成される映像の視覚的品質,流動性,スタイルの有意な変化を明らかにする。
論文 参考訳(メタデータ) (2024-04-21T08:27:20Z) - Audio-visual Saliency for Omnidirectional Videos [58.086575606742116]
私たちはまず、全方向ビデオ(AVS-ODV)のための最大のオーディオ・ビジュアル・サリエンシデータセットを確立する。
AVS-ODVデータセットに基づく全方位音響モーダル性および視覚シーン下での観察者の視覚的注意行動を分析する。
論文 参考訳(メタデータ) (2023-11-09T08:03:40Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - Assessor360: Multi-sequence Network for Blind Omnidirectional Image
Quality Assessment [50.82681686110528]
Blind Omnidirectional Image Quality Assessment (BOIQA)は、全方位画像(ODI)の人間の知覚品質を客観的に評価することを目的としている。
ODIの品質評価は、既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。
Assessor360と呼ばれるBOIQAのための新しいマルチシーケンスネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:55:28Z) - Audio-Visual Quality Assessment for User Generated Content: Database and
Method [61.970768267688086]
既存のVQA研究の多くは、ユーザのQoEが付随する音声信号にも依存していることを無視して、ビデオの視覚的歪みのみに焦点を当てている。
SJTU-UAVデータベースと呼ばれる最初のAVQAデータベースを構築する。
また、サポートベクタ回帰器(SVR)を介して、一般的なVQA手法とオーディオ機能を融合したAVQAモデルのファミリーを設計する。
実験の結果,VQAモデルは,音声信号の助けを借りて,より正確な品質評価を行うことができた。
論文 参考訳(メタデータ) (2023-03-04T11:49:42Z) - A Comprehensive Survey on Video Saliency Detection with Auditory
Information: the Audio-visual Consistency Perceptual is the Key! [25.436683033432086]
ビデオサリエンシ検出(VSD)は、あるビデオクリップの中で最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。
本稿では,音声・視覚融合と唾液度検出のギャップを埋めるために,広範囲なレビューを行う。
論文 参考訳(メタデータ) (2022-06-20T07:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。