論文の概要: Subjective and Objective Quality Assessment Methods of Stereoscopic Videos with Visibility Affecting Distortions
- arxiv url: http://arxiv.org/abs/2411.19522v1
- Date: Fri, 29 Nov 2024 07:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:19:02.724229
- Title: Subjective and Objective Quality Assessment Methods of Stereoscopic Videos with Visibility Affecting Distortions
- Title(参考訳): 視認性に影響を及ぼす立体映像の主観的・客観的品質評価法
- Authors: Sria Biswas, Balasubramanyam Appina, Priyanka Kokil, Sumohana S Channappayya,
- Abstract要約: 私たちは、12の参照と360の歪んだビデオからなるフルHD解像度ステレオスコープ(S3D)ビデオデータセットを作成します。
生成したビデオデータセットを24人の視聴者で主観分析する。
S3Dビデオに対して,オピニオン・ウナウェア(OU)とディストーション・ウナウェア(DU)のビデオ品質評価モデルを開発した。
- 参考スコア(独自算出の注目度): 10.585857986453941
- License:
- Abstract: We present two major contributions in this work: 1) we create a full HD resolution stereoscopic (S3D) video dataset comprised of 12 reference and 360 distorted videos. The test stimuli are produced by simulating the five levels of fog and haze ambiances on the pristine left and right video sequences. We perform subjective analysis on the created video dataset with 24 viewers and compute Difference Mean Opinion Scores (DMOS) as quality representative of the dataset, 2) an Opinion Unaware (OU) and Distortion Unaware (DU) video quality assessment model is developed for S3D videos. We construct cyclopean frames from the individual views of an S3D video and partition them into nonoverlapping blocks. We analyze the Natural Scene Statistics (NSS) of all patches of pristine and test videos, and empirically model the NSS features with Univariate Generalized Gaussian Distribution (UGGD). We compute UGGD model parameters ({\alpha}, \b{eta}) at multiple spatial scales and multiple orientations of spherical steerable pyramid decomposition and show that the UGGD parameters are distortion discriminable. Further, we perform Multivariate Gaussian (MVG) modeling on the pristine and distorted video feature sets and compute the corresponding mean vectors and covariance matrices of MVG fits. We compute the Bhattacharyya distance measure between mean vectors and covariance matrices to estimate the perceptual deviation of a test video from pristine video set. Finally, we pool both distance measures to estimate the overall quality score of an S3D video. The performance of the proposed objective algorithm is verified on the popular S3D video datasets such as IRCCYN, LFOVIAS3DPh1, LFOVIAS3DPh2 and the proposed VAD stereo dataset. The algorithm delivers consistent performance across all datasets and shows competitive performance against off-the-shelf 2D and 3D image and video quality assessment algorithms.
- Abstract(参考訳): この仕事には2つの大きな貢献があります。
1) フルHD解像度ステレオスコープ(S3D)ビデオデータセットを作成した。
テスト刺激は、プリスチンの左及び右のビデオシーケンス上で5レベルの霧とヘイズアンビアンスをシミュレートして生成される。
生成したビデオデータセットを24人の視聴者で主観分析し、データセットの品質代表として差分平均オピニオンスコア(DMOS)を算出する。
2)S3Dビデオに対して,オピニオン・ウナウェア(OU)とディストーション・ウナウェア(DU)のビデオ品質評価モデルを開発した。
我々は、S3Dビデオの個々のビューからサイクロペアンフレームを構築し、それらを重複しないブロックに分割する。
プリスタンとテストビデオの全パッチのNatural Scene Statistics (NSS)を分析し,Univariate Generalized Gaussian Distribution (UGGD)によるNAS特徴を実験的にモデル化した。
複数の空間スケールでUGGDモデルパラメータ({\alpha, \b{eta})を計算し、球状ステアブルピラミッド分解の複数方向を計算し、UGGDパラメータが歪み判別可能であることを示す。
さらに、プリスタンと歪んだビデオ特徴集合上で多変量ガウス(MVG)モデリングを行い、対応する平均ベクトルと共分散行列を計算する。
平均ベクトルと共分散行列間のバッタリア距離測定を計算し、プリスタンビデオセットからテストビデオの知覚的偏差を推定する。
最後に、S3Dビデオの全体的な品質スコアを推定するために、両方の距離測度をプールする。
提案アルゴリズムの性能をIRCCYN, LFOVIAS3DPh1, LFOVIAS3DPh2, VADステレオデータセットなどの一般的なS3Dビデオデータセットで検証する。
このアルゴリズムは、すべてのデータセットに対して一貫したパフォーマンスを提供し、市販の2Dおよび3D画像およびビデオ品質評価アルゴリズムに対する競合性能を示す。
関連論文リスト
- Semantic Scene Completion with Multi-Feature Data Balancing Network [5.3431413737671525]
RGBおよび深度データ(F-TSDF)入力のためのデュアルヘッドモデルを提案する。
プリアクティベーション残余モジュールにおけるアイデンティティ変換を伴うハイブリッドエンコーダデコーダアーキテクチャは、F-TSDF内の多様な信号を効果的に管理する。
我々は,RGB特徴融合戦略を評価し,2次元RGB特徴量と重み付きクロスエントロピーを併用して3次元SSC予測を行う。
論文 参考訳(メタデータ) (2024-12-02T12:12:21Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - EVA-Gaussian: 3D Gaussian-based Real-time Human Novel View Synthesis under Diverse Camera Settings [11.248908608011941]
EVA-Gaussianは、多様なカメラ設定にまたがる3D人間の新しいビュー合成のためのリアルタイムパイプラインである。
本稿では,ソース画像から各3次元ガウスの位置を正確に推定するために,EVA (Efficient Cross-View Attention) モジュールを提案する。
我々は3次元ガウス属性と人間の顔のランドマークの両方に強力なアンカー損失関数を組み込んだ。
論文 参考訳(メタデータ) (2024-10-02T11:23:08Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical
Refinement and EM optimization [6.886220026399106]
テクスチャレス領域の3次元再構成における課題を解決するために,多視点ステレオ (SD-MVS) を導入する。
私たちは、シーン内のセグメンテーションインスタンスを区別するためにSAM(Segment Anything Model)を採用した最初の人です。
球面座標と正規点の勾配勾配と深度の画素方向探索間隔を組み合わせた独自の精細化戦略を提案する。
論文 参考訳(メタデータ) (2024-01-12T05:25:57Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation [18.14237514372724]
RGBビデオから3次元のポーズとメッシュを生成する新しいフレームワークを提案する。
SMPLパラメータを予測するために,トランスフォーマーに基づく2ストリーム時間ネットワークを訓練する。
提案アルゴリズムは,Human3.6と3DPWのデータセットで広く評価されている。
論文 参考訳(メタデータ) (2021-10-22T10:01:13Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。