Fugu-MT 論文翻訳(概要): Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

論文の概要: Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

arxiv url: http://arxiv.org/abs/2603.10965v1
Date: Wed, 11 Mar 2026 16:51:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-12 16:22:33.061452
Title: Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition
Title（参考訳）: ビデオ認識のためのコントラスト学習に基づく映像品質評価結合型映像ビジョン変換器
Authors: Jian Sun, Mohammad H. Mahoor,
Abstract要約: 本稿では、ビデオ分類のための非参照ビデオ品質評価(VQA)を併用した自己監督学習型ビデオビジョン変換器を提案する。 SSL-V3は、2つのデータセットで堅牢な実験結果を達成する。
参考スコア（独自算出の注目度）: 47.22193550586999
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video quality significantly affects video classification. We found this problem when we classified Mild Cognitive Impairment well from clear videos, but worse from blurred ones. From then, we realized that referring to Video Quality Assessment (VQA) may improve video classification. This paper proposed Self-Supervised Learning-based Video Vision Transformer combined with No-reference VQA for video classification (SSL-V3) to fulfill the goal. SSL-V3 leverages Combined-SSL mechanism to join VQA into video classification and address the label shortage of VQA, which commonly occurs in video datasets, making it impossible to provide an accurate Video Quality Score. In brief, Combined-SSL takes video quality score as a factor to directly tune the feature map of the video classification. Then, the score, as an intersected point, links VQA and classification, using the supervised classification task to tune the parameters of VQA. SSL-V3 achieved robust experimental results on two datasets. For example, it reached an accuracy of 94.87% on some interview videos in the I-CONECT (a facial video-involved healthcare dataset), verifying SSL-V3's effectiveness.
Abstract（参考訳）: ビデオの品質はビデオの分類に大きく影響する。 Mild Cognitive Impairmentをクリアなビデオからよく分類したとき、この問題に気付きました。その後,ビデオ品質評価(VQA)に言及することで,映像の分類が向上することが判明した。本稿では,ビデオ分類用非参照VQA(SSL-V3)と併用して,自己教師付き学習型ビデオビジョン変換器を提案する。 SSL-V3は、ビデオ分類にVQAを組み込むことで、ビデオデータセットで一般的に発生するVQAのラベル不足に対処するため、正確なビデオ品質スコアを提供することが不可能である。簡単に言うと、Combined-SSLはビデオの品質スコアを、ビデオ分類の機能マップを直接調整する要因としている。そして、スコアが交差点としてVQAと分類をリンクし、教師付き分類タスクを使用してVQAのパラメータをチューニングする。 SSL-V3は2つのデータセットで堅牢な実験結果を得た。例えば、I-CONECT(顔ビデオを含む医療データセット)のインタビュービデオでは94.87%の精度に達し、SSL-V3の有効性が検証された。

論文の概要: Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

関連論文リスト