論文の概要: CONVIQT: Contrastive Video Quality Estimator
- arxiv url: http://arxiv.org/abs/2206.14713v1
- Date: Wed, 29 Jun 2022 15:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 21:32:57.043936
- Title: CONVIQT: Contrastive Video Quality Estimator
- Title(参考訳): CONVIQT:コントラストビデオ品質推定器
- Authors: Pavan C. Madhusudana and Neil Birkbeck and Yilin Wang and Balu
Adsumilli and Alan C. Bovik
- Abstract要約: 知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
- 参考スコア(独自算出の注目度): 63.749184706461826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceptual video quality assessment (VQA) is an integral component of many
streaming and video sharing platforms. Here we consider the problem of learning
perceptually relevant video quality representations in a self-supervised
manner. Distortion type identification and degradation level determination is
employed as an auxiliary task to train a deep learning model containing a deep
Convolutional Neural Network (CNN) that extracts spatial features, as well as a
recurrent unit that captures temporal information. The model is trained using a
contrastive loss and we therefore refer to this training framework and
resulting model as CONtrastive VIdeo Quality EstimaTor (CONVIQT). During
testing, the weights of the trained model are frozen, and a linear regressor
maps the learned features to quality scores in a no-reference (NR) setting. We
conduct comprehensive evaluations of the proposed model on multiple VQA
databases by analyzing the correlations between model predictions and
ground-truth quality ratings, and achieve competitive performance when compared
to state-of-the-art NR-VQA models, even though it is not trained on those
databases. Our ablation experiments demonstrate that the learned
representations are highly robust and generalize well across synthetic and
realistic distortions. Our results indicate that compelling representations
with perceptual bearing can be obtained using self-supervised learning. The
implementations used in this work have been made available at
https://github.com/pavancm/CONVIQT.
- Abstract(参考訳): perceptual video quality assessment (vqa)は多くのストリーミングおよびビデオ共有プラットフォームの不可欠なコンポーネントである。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
歪型同定と劣化レベル判定を補助タスクとして、空間的特徴を抽出する深層畳み込みニューラルネットワーク(cnn)を含むディープラーニングモデルと、時間的情報をキャプチャするリカレントユニットを訓練する。
このモデルは対照的な損失を用いて訓練されており、このトレーニングフレームワークと結果のモデルをcontrastive VIdeo Quality EstimaTor (CONVIQT) と呼ぶ。
テスト中、トレーニングされたモデルの重みは凍結され、線形回帰器は学習した特徴を非参照(NR)設定で品質スコアにマップする。
提案手法を複数vqaデータベース上で包括的に評価し, モデル予測と地上品質評価の相関を解析し, それらのデータベース上ではトレーニングされていないが, 最先端のnr-vqaモデルと比較した場合の競合性能を達成する。
アブレーション実験により,学習した表現は高いロバスト性を示し,合成的・現実的な歪みに対して十分に一般化できることを示した。
本研究は,自己指導型学習を用いて,知覚力による説得力のある表現が得られることを示す。
この作業で使用される実装はhttps://github.com/pavancm/CONVIQTで公開されている。
関連論文リスト
- PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild [27.195339506769457]
映像品質評価(VQA)は、映像の知覚品質に影響を与える多くの要因により難しい問題である。
ビデオに対する平均評価スコア(MOS)の注釈付けは高価で時間を要するため、VQAデータセットのスケールが制限される。
PTM-VQAと呼ばれるVQA手法を提案し、PreTrained Modelsを利用して、様々な事前タスクで事前訓練されたモデルから知識を伝達する。
論文 参考訳(メタデータ) (2024-05-28T02:37:29Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment [49.36799270585947]
No-Reference Point Cloud Quality Assessment (NR-PCQA) は、歪んだ点雲の知覚的品質を、参照なしで自動的に評価することを目的としている。
我々は,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。
提案手法は,最新のPCQA手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:16:07Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - No-Reference Image Quality Assessment via Transformers, Relative
Ranking, and Self-Consistency [38.88541492121366]
No-Reference Image Quality Assessment (NR-IQA) の目的は、主観的評価に応じて知覚的画質を推定することである。
本稿では、変圧器における畳み込みニューラルネットワーク(CNN)と自己保持機構の利点を生かしたハイブリッドアプローチを利用して、NR-IQAタスクに対処する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-08-16T02:07:08Z) - Study on the Assessment of the Quality of Experience of Streaming Video [117.44028458220427]
本稿では,ストリーミング映像のQoEの主観的推定に対する様々な客観的要因の影響について検討する。
本論文では標準的および手作り的特徴を示し,その相関とp値を示す。
SQoE-IIIデータベースは、これまでで最大の、そして最も現実的なデータベースだ。
論文 参考訳(メタデータ) (2020-12-08T18:46:09Z) - Unified Quality Assessment of In-the-Wild Videos with Mixed Datasets
Training [20.288424566444224]
我々は、コンピュータビジョンアプリケーションにおいて、Wildビデオの品質を自動評価することに注力する。
品質評価モデルの性能向上のために,人間の知覚から直観を借りる。
複数のデータセットで単一のVQAモデルをトレーニングするための混合データセットトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-11-09T09:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。