論文の概要: Research on Audio-Visual Quality Assessment Dataset and Method for User-Generated Omnidirectional Video
- arxiv url: http://arxiv.org/abs/2506.10331v1
- Date: Thu, 12 Jun 2025 03:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.559445
- Title: Research on Audio-Visual Quality Assessment Dataset and Method for User-Generated Omnidirectional Video
- Title(参考訳): ユーザ生成全方位ビデオの音質評価データセットと方法に関する研究
- Authors: Fei Zhao, Da Pan, Zelu Qi, Ping Shi,
- Abstract要約: 我々は全方向オーディオ・ビデオ(A/V)コンテンツのデータセットを構築した。
データセット上で主観的なAVQA実験を行い、平均オピニオンスコアを得る。
提案したデータセットに基づいて有効なAVQAベースラインモデルを構築する。
- 参考スコア(独自算出の注目度): 6.117081165682988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In response to the rising prominence of the Metaverse, omnidirectional videos (ODVs) have garnered notable interest, gradually shifting from professional-generated content (PGC) to user-generated content (UGC). However, the study of audio-visual quality assessment (AVQA) within ODVs remains limited. To address this, we construct a dataset of UGC omnidirectional audio and video (A/V) content. The videos are captured by five individuals using two different types of omnidirectional cameras, shooting 300 videos covering 10 different scene types. A subjective AVQA experiment is conducted on the dataset to obtain the Mean Opinion Scores (MOSs) of the A/V sequences. After that, to facilitate the development of UGC-ODV AVQA fields, we construct an effective AVQA baseline model on the proposed dataset, of which the baseline model consists of video feature extraction module, audio feature extraction and audio-visual fusion module. The experimental results demonstrate that our model achieves optimal performance on the proposed dataset.
- Abstract(参考訳): メタバースの普及に対応して、全方向ビデオ(ODV)が注目され、プロ生成コンテンツ(PGC)からユーザ生成コンテンツ(UGC)へと徐々に移行していった。
しかし、ODVにおけるオーディオ視覚品質評価(AVQA)の研究は依然として限られている。
そこで本研究では,UGC全方位オーディオ・ビデオ(A/V)コンテンツのデータセットを構築した。
ビデオは2種類の全方位カメラを使って5人の個人によって撮影され、10種類のシーンをカバーする300のビデオを撮影する。
データセット上で主観的なAVQA実験を行い、A/Vシーケンスの平均オピニオンスコア(MOS)を得る。
その後、UGC-ODV AVQAフィールドの開発を容易にするため、提案したデータセット上で有効なAVQAベースラインモデルを構築し、そのベースラインモデルは、ビデオ特徴抽出モジュール、オーディオ特徴抽出およびオーディオ視覚融合モジュールから構成される。
実験の結果,提案したデータセットの最適性能が得られた。
関連論文リスト
- DiffVQA: Video Quality Assessment Using Diffusion Feature Extractor [22.35724335601674]
映像品質評価(VQA)は、知覚的歪みと人間の嗜好に基づいて映像品質を評価することを目的としている。
我々は、広範囲なデータセットで事前訓練された拡散モデルの堅牢な一般化機能を利用する新しいVQAフレームワークDiffVQAを紹介する。
論文 参考訳(メタデータ) (2025-05-06T07:42:24Z) - How Does Audio Influence Visual Attention in Omnidirectional Videos? Database and Model [50.15552768350462]
本稿では,全方向ビデオ(ODV)における音声・視覚的注意を主観的視点と客観的視点の両方から包括的に検討する。
AVS-ODVデータベースに基づく新たなベンチマークを構築した。
論文 参考訳(メタデータ) (2024-08-10T02:45:46Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Audio-visual Saliency for Omnidirectional Videos [58.086575606742116]
私たちはまず、全方向ビデオ(AVS-ODV)のための最大のオーディオ・ビジュアル・サリエンシデータセットを確立する。
AVS-ODVデータセットに基づく全方位音響モーダル性および視覚シーン下での観察者の視覚的注意行動を分析する。
論文 参考訳(メタデータ) (2023-11-09T08:03:40Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - Perceptual Quality Assessment of Omnidirectional Audio-visual Signals [37.73157112698111]
全方向ビデオ(ODV)の既存の品質評価研究は、ビデオの視覚的歪みのみに焦点を当てている。
本稿では,ODVのための大規模オーディオ・視覚品質評価データセットを最初に構築する。
そして,全方位オーディオ視覚品質評価(OAVQA)のための3つのベースライン手法を設計する。
論文 参考訳(メタデータ) (2023-07-20T12:21:26Z) - Audio-Visual Quality Assessment for User Generated Content: Database and
Method [61.970768267688086]
既存のVQA研究の多くは、ユーザのQoEが付随する音声信号にも依存していることを無視して、ビデオの視覚的歪みのみに焦点を当てている。
SJTU-UAVデータベースと呼ばれる最初のAVQAデータベースを構築する。
また、サポートベクタ回帰器(SVR)を介して、一般的なVQA手法とオーディオ機能を融合したAVQAモデルのファミリーを設計する。
実験の結果,VQAモデルは,音声信号の助けを借りて,より正確な品質評価を行うことができた。
論文 参考訳(メタデータ) (2023-03-04T11:49:42Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。