論文の概要: StarVQA+: Co-training Space-Time Attention for Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2306.12298v1
- Date: Wed, 21 Jun 2023 14:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 12:58:25.492554
- Title: StarVQA+: Co-training Space-Time Attention for Video Quality Assessment
- Title(参考訳): starvqa+: 映像品質評価のための時空注意の訓練
- Authors: Fengchuang Xing, Yuan-Gen Wang, Weixuan Tang, Guopu Zhu, Sam Kwong
- Abstract要約: 自己注意に基づくトランスフォーマーは多くのコンピュータビジョンタスクで大きな成功を収めた。
しかし,ビデオ品質評価(VQA)への適用は今のところ不十分である。
本稿では,StarVQA+と呼ばれる,VQA問題に対する協調学習型空間時間注意ネットワークを提案する。
- 参考スコア(独自算出の注目度): 56.548364244708715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention based Transformer has achieved great success in many computer
vision tasks. However, its application to video quality assessment (VQA) has
not been satisfactory so far. Evaluating the quality of in-the-wild videos is
challenging due to the unknown of pristine reference and shooting distortion.
This paper presents a co-trained Space-Time Attention network for the VQA
problem, termed StarVQA+. Specifically, we first build StarVQA+ by alternately
concatenating the divided space-time attention. Then, to facilitate the
training of StarVQA+, we design a vectorized regression loss by encoding the
mean opinion score (MOS) to the probability vector and embedding a special
token as the learnable variable of MOS, leading to better fitting of human's
rating process. Finally, to solve the data hungry problem with Transformer, we
propose to co-train the spatial and temporal attention weights using both
images and videos. Various experiments are conducted on the de-facto
in-the-wild video datasets, including LIVE-Qualcomm, LIVE-VQC, KoNViD-1k,
YouTube-UGC, LSVQ, LSVQ-1080p, and DVL2021. Experimental results demonstrate
the superiority of the proposed StarVQA+ over the state-of-the-art.
- Abstract(参考訳): 自己注意に基づくトランスフォーマーは多くのコンピュータビジョンタスクで大きな成功を収めた。
しかし,ビデオ品質評価(VQA)への適用は今のところ不十分である。
地中ビデオの品質を評価することは、プリスタン参照の未知と撮影歪みのために難しい。
本稿では,StarVQA+と呼ばれる,VQA問題に対する学習時空間注意ネットワークを提案する。
具体的には、分割された時空の注意を交互に結合することで、StarVQA+を構築する。
そして、StarVQA+のトレーニングを容易にするために、平均世論スコア(MOS)を確率ベクトルに符号化し、特殊トークンをMOSの学習可能な変数として埋め込むことにより、ベクトル化回帰損失を設計し、人間の評価プロセスをよりよく適合させる。
最後に,トランスフォーマによるデータ空腹問題を解決するために,映像と映像の両方を用いて空間的および時間的注意重みを共学習する。
LIVE-Qualcomm, LIVE-VQC, KoNViD-1k, YouTube-UGC, LSVQ, LSVQ-1080p, DVL2021など,様々な実験を行った。
実験の結果,提案するstarvqa+が最先端技術よりも優れていることが示された。
関連論文リスト
- Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos [39.06800945430703]
我々は、第一種主観的Live VQAデータベースを構築し、効果的な評価ツールを開発する。
textbfMD-VQAは、Live VQAデータベースと既存の圧縮VQAデータベースの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-27T06:17:10Z) - Contrastive Video Question Answering via Video Graph Transformer [184.3679515511028]
本稿では,ビデオグラフ変換モデル(CoVGT)を提案する。
CoVGTの特異性と優越性は3倍である。
我々は,CoVGTが従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T11:09:13Z) - Disentangling Aesthetic and Technical Effects for Video Quality
Assessment of User Generated Content [54.31355080688127]
YouTube-VQA問題における人間の品質知覚のメカニズムはまだ解明されていない。
本稿では,2つの個別評価器を,各問題に特化して設計したビューで訓練する手法を提案する。
我々の盲目主観的研究は、DOVERの別個の評価器が、各不整合品質問題に対する人間の認識と効果的に一致できることを証明している。
論文 参考訳(メタデータ) (2022-11-09T13:55:50Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z) - StarVQA: Space-Time Attention for Video Quality Assessment [28.3487798060932]
動画の質を評価することは、プリスタン参照の未知と撮影歪みのために難しい。
この論文には小説が載っている。
underlinespace-underlinetime underlineattention network founderliner underlineVQA problem, called StarVQA.
論文 参考訳(メタデータ) (2021-08-22T04:53:02Z) - End-to-End Video Question-Answer Generation with Generator-Pretester
Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。
キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文 参考訳(メタデータ) (2021-01-05T10:46:06Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。