論文の概要: ESVQA: Perceptual Quality Assessment of Egocentric Spatial Videos
- arxiv url: http://arxiv.org/abs/2412.20423v1
- Date: Sun, 29 Dec 2024 10:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:04:44.084589
- Title: ESVQA: Perceptual Quality Assessment of Egocentric Spatial Videos
- Title(参考訳): ESVQA:エゴセントリックな空間映像の知覚的品質評価
- Authors: Xilei Zhu, Huiyu Duan, Liu Yang, Yucheng Zhu, Xiongkuo Min, Guangtao Zhai, Patrick Le Callet,
- Abstract要約: 我々は,600個のエゴセントリックな空間ビデオとそれらの平均評価スコア(MOS)からなる,最初のエゴセントリックな空間ビデオ品質評価データベース(ESVQAD)を紹介する。
両眼の空間, 動き, 意味的特徴を統合し, 知覚品質を予測できる新しい多次元両眼機能融合モデル ESVQAnet を提案する。
ESVQAnetは知覚品質評価タスクにおいて16の最先端VQAモデルより優れていることを示す実験結果を得た。
- 参考スコア(独自算出の注目度): 71.62145804686062
- License:
- Abstract: With the rapid development of eXtended Reality (XR), egocentric spatial shooting and display technologies have further enhanced immersion and engagement for users. Assessing the quality of experience (QoE) of egocentric spatial videos is crucial to ensure a high-quality viewing experience. However, the corresponding research is still lacking. In this paper, we use the embodied experience to highlight this more immersive experience and study the new problem, i.e., embodied perceptual quality assessment for egocentric spatial videos. Specifically, we introduce the first Egocentric Spatial Video Quality Assessment Database (ESVQAD), which comprises 600 egocentric spatial videos and their mean opinion scores (MOSs). Furthermore, we propose a novel multi-dimensional binocular feature fusion model, termed ESVQAnet, which integrates binocular spatial, motion, and semantic features to predict the perceptual quality. Experimental results demonstrate the ESVQAnet outperforms 16 state-of-the-art VQA models on the embodied perceptual quality assessment task, and exhibits strong generalization capability on traditional VQA tasks. The database and codes will be released upon the publication.
- Abstract(参考訳): eXtended Reality (XR) の急速な発展に伴い、エゴセントリックな空間撮影と表示技術はユーザへの没入とエンゲージメントをさらに強化した。
自己中心型空間ビデオのクオリティ・オブ・エクスペリエンス(QoE)を評価することは、高品質な視聴体験を確保するために不可欠である。
しかし、この研究はいまだに欠落している。
本稿では,エゴセントリックな空間ビデオの知覚的品質評価を具体化して,この没入感のある体験を強調し,新たな課題について考察する。
具体的には,600個のエゴセントリックな空間ビデオとそれらの平均評価スコア(MOS)からなる,最初のエゴセントリックな空間ビデオ品質評価データベース(ESVQAD)を紹介する。
さらに,両眼の空間,運動,意味的特徴を統合して知覚品質を予測する多次元両眼機能融合モデルであるESVQAnetを提案する。
実験により、ESVQAnetは、具体化された知覚品質評価タスクにおいて16の最先端VQAモデルを上回る性能を示し、従来のVQAタスクに対して強力な一般化能力を示す。
データベースとコードは公開時に公開される。
関連論文リスト
- Video Quality Assessment for Online Processing: From Spatial to Temporal Sampling [33.326611991696225]
本稿では、少なくともVQAモデルにビデオを送る際には、いかに少ない情報を保持するべきかを検討する。
空間次元と時間次元の両方から映像情報を徹底的にサンプリングし、強く圧縮された映像を安定なVQAモデルに入力する。
6つの公開ビデオ品質データベース上で,共同空間および時間的サンプリングに関する総合的な実験を行った。
論文 参考訳(メタデータ) (2025-01-13T06:45:32Z) - Video Quality Assessment: A Comprehensive Survey [55.734935003021576]
映像品質評価(VQA)は,映像の品質を知覚された品質の人間の判断と整合した方法で予測することを目的とした,重要な処理課題である。
本稿では,VQAアルゴリズムの開発における最近の進歩と,それらを実現するためのベンチマーク研究とデータベースについて述べる。
論文 参考訳(メタデータ) (2024-12-04T05:25:17Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。
主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。
我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。
本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - Perceptual Quality Assessment of Virtual Reality Videos in the Wild [53.94620993606658]
既存のパノラマビデオデータベースでは、合成歪みのみを考慮し、一定の視聴条件を仮定し、サイズに制限がある。
我々はVRVQW(VR Video Quality in the Wild)データベースを構築した。
我々は,2つの異なる視聴条件下で,139ドルの被験者から,スキャンパスと品質スコアを記録するための正式な心理物理実験を行った。
論文 参考訳(メタデータ) (2022-06-13T02:22:57Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z) - Unified Quality Assessment of In-the-Wild Videos with Mixed Datasets
Training [20.288424566444224]
我々は、コンピュータビジョンアプリケーションにおいて、Wildビデオの品質を自動評価することに注力する。
品質評価モデルの性能向上のために,人間の知覚から直観を借りる。
複数のデータセットで単一のVQAモデルをトレーニングするための混合データセットトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-11-09T09:22:57Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。