論文の概要: StarVQA+: Co-training Space-Time Attention for Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2306.12298v1
- Date: Wed, 21 Jun 2023 14:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 12:58:25.492554
- Title: StarVQA+: Co-training Space-Time Attention for Video Quality Assessment
- Title(参考訳): starvqa+: 映像品質評価のための時空注意の訓練
- Authors: Fengchuang Xing, Yuan-Gen Wang, Weixuan Tang, Guopu Zhu, Sam Kwong
- Abstract要約: 自己注意に基づくトランスフォーマーは多くのコンピュータビジョンタスクで大きな成功を収めた。
しかし,ビデオ品質評価(VQA)への適用は今のところ不十分である。
本稿では,StarVQA+と呼ばれる,VQA問題に対する協調学習型空間時間注意ネットワークを提案する。
- 参考スコア(独自算出の注目度): 56.548364244708715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention based Transformer has achieved great success in many computer
vision tasks. However, its application to video quality assessment (VQA) has
not been satisfactory so far. Evaluating the quality of in-the-wild videos is
challenging due to the unknown of pristine reference and shooting distortion.
This paper presents a co-trained Space-Time Attention network for the VQA
problem, termed StarVQA+. Specifically, we first build StarVQA+ by alternately
concatenating the divided space-time attention. Then, to facilitate the
training of StarVQA+, we design a vectorized regression loss by encoding the
mean opinion score (MOS) to the probability vector and embedding a special
token as the learnable variable of MOS, leading to better fitting of human's
rating process. Finally, to solve the data hungry problem with Transformer, we
propose to co-train the spatial and temporal attention weights using both
images and videos. Various experiments are conducted on the de-facto
in-the-wild video datasets, including LIVE-Qualcomm, LIVE-VQC, KoNViD-1k,
YouTube-UGC, LSVQ, LSVQ-1080p, and DVL2021. Experimental results demonstrate
the superiority of the proposed StarVQA+ over the state-of-the-art.
- Abstract(参考訳): 自己注意に基づくトランスフォーマーは多くのコンピュータビジョンタスクで大きな成功を収めた。
しかし,ビデオ品質評価(VQA)への適用は今のところ不十分である。
地中ビデオの品質を評価することは、プリスタン参照の未知と撮影歪みのために難しい。
本稿では,StarVQA+と呼ばれる,VQA問題に対する学習時空間注意ネットワークを提案する。
具体的には、分割された時空の注意を交互に結合することで、StarVQA+を構築する。
そして、StarVQA+のトレーニングを容易にするために、平均世論スコア(MOS)を確率ベクトルに符号化し、特殊トークンをMOSの学習可能な変数として埋め込むことにより、ベクトル化回帰損失を設計し、人間の評価プロセスをよりよく適合させる。
最後に,トランスフォーマによるデータ空腹問題を解決するために,映像と映像の両方を用いて空間的および時間的注意重みを共学習する。
LIVE-Qualcomm, LIVE-VQC, KoNViD-1k, YouTube-UGC, LSVQ, LSVQ-1080p, DVL2021など,様々な実験を行った。
実験の結果,提案するstarvqa+が最先端技術よりも優れていることが示された。
関連論文リスト
- VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - Contrastive Video Question Answering via Video Graph Transformer [184.3679515511028]
本稿では,ビデオグラフ変換モデル(CoVGT)を提案する。
CoVGTの特異性と優越性は3倍である。
我々は,CoVGTが従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T11:09:13Z) - Disentangling Aesthetic and Technical Effects for Video Quality
Assessment of User Generated Content [54.31355080688127]
YouTube-VQA問題における人間の品質知覚のメカニズムはまだ解明されていない。
本稿では,2つの個別評価器を,各問題に特化して設計したビューで訓練する手法を提案する。
我々の盲目主観的研究は、DOVERの別個の評価器が、各不整合品質問題に対する人間の認識と効果的に一致できることを証明している。
論文 参考訳(メタデータ) (2022-11-09T13:55:50Z) - StarVQA: Space-Time Attention for Video Quality Assessment [28.3487798060932]
動画の質を評価することは、プリスタン参照の未知と撮影歪みのために難しい。
この論文には小説が載っている。
underlinespace-underlinetime underlineattention network founderliner underlineVQA problem, called StarVQA.
論文 参考訳(メタデータ) (2021-08-22T04:53:02Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。