論文の概要: Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition
- arxiv url: http://arxiv.org/abs/2603.10965v1
- Date: Wed, 11 Mar 2026 16:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.061452
- Title: Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition
- Title(参考訳): ビデオ認識のためのコントラスト学習に基づく映像品質評価結合型映像ビジョン変換器
- Authors: Jian Sun, Mohammad H. Mahoor,
- Abstract要約: 本稿では、ビデオ分類のための非参照ビデオ品質評価(VQA)を併用した自己監督学習型ビデオビジョン変換器を提案する。
SSL-V3は、2つのデータセットで堅牢な実験結果を達成する。
- 参考スコア(独自算出の注目度): 47.22193550586999
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video quality significantly affects video classification. We found this problem when we classified Mild Cognitive Impairment well from clear videos, but worse from blurred ones. From then, we realized that referring to Video Quality Assessment (VQA) may improve video classification. This paper proposed Self-Supervised Learning-based Video Vision Transformer combined with No-reference VQA for video classification (SSL-V3) to fulfill the goal. SSL-V3 leverages Combined-SSL mechanism to join VQA into video classification and address the label shortage of VQA, which commonly occurs in video datasets, making it impossible to provide an accurate Video Quality Score. In brief, Combined-SSL takes video quality score as a factor to directly tune the feature map of the video classification. Then, the score, as an intersected point, links VQA and classification, using the supervised classification task to tune the parameters of VQA. SSL-V3 achieved robust experimental results on two datasets. For example, it reached an accuracy of 94.87% on some interview videos in the I-CONECT (a facial video-involved healthcare dataset), verifying SSL-V3's effectiveness.
- Abstract(参考訳): ビデオの品質はビデオの分類に大きく影響する。
Mild Cognitive Impairmentをクリアなビデオからよく分類したとき、この問題に気付きました。
その後,ビデオ品質評価(VQA)に言及することで,映像の分類が向上することが判明した。
本稿では,ビデオ分類用非参照VQA(SSL-V3)と併用して,自己教師付き学習型ビデオビジョン変換器を提案する。
SSL-V3は、ビデオ分類にVQAを組み込むことで、ビデオデータセットで一般的に発生するVQAのラベル不足に対処するため、正確なビデオ品質スコアを提供することが不可能である。
簡単に言うと、Combined-SSLはビデオの品質スコアを、ビデオ分類の機能マップを直接調整する要因としている。
そして、スコアが交差点としてVQAと分類をリンクし、教師付き分類タスクを使用してVQAのパラメータをチューニングする。
SSL-V3は2つのデータセットで堅牢な実験結果を得た。
例えば、I-CONECT(顔ビデオを含む医療データセット)のインタビュービデオでは94.87%の精度に達し、SSL-V3の有効性が検証された。
関連論文リスト
- VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Knowledge Guided Semi-Supervised Learning for Quality Assessment of User
Generated Videos [9.681456357957819]
ビデオの品質を意識したロバストな機能を生成するための自己教師型フレームワークを設計する。
次に,ビデオ品質評価タスクに特化して設計された,デュアルモデルに基づくSemi Supervised Learning(SSL)手法を提案する。
我々のSSL-VQAメソッドはST-VQRLバックボーンを使用して、様々なVQAデータセット間で堅牢なパフォーマンスを生成する。
本モデルでは,制限データのみをトレーニングした場合の最先端性能を約10%向上させ,SSLでも未使用データを使用すれば約15%向上させる。
論文 参考訳(メタデータ) (2023-12-24T07:32:03Z) - SB-VQA: A Stack-Based Video Quality Assessment Framework for Video
Enhancement [0.40777876591043155]
本稿では,ビデオ品質評価(VQA)のためのスタックベースのフレームワークを提案する。
拡張ビデオのためのVQAフレームワークの提案に加えて、プロが生成するコンテンツ(PGC)に対するVQAの適用についても検討する。
実験により,既存のVQAアルゴリズムをPGCビデオに適用できることが実証された。
論文 参考訳(メタデータ) (2023-05-15T07:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。