論文の概要: StarVQA: Space-Time Attention for Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2108.09635v1
- Date: Sun, 22 Aug 2021 04:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:46:48.322733
- Title: StarVQA: Space-Time Attention for Video Quality Assessment
- Title(参考訳): StarVQA:ビデオ品質評価のための時空間アテンション
- Authors: Fengchuang Xing, Yuan-Gen Wang, Hanpin Wang, Leida Li, and Guopu Zhu
- Abstract要約: 動画の質を評価することは、プリスタン参照の未知と撮影歪みのために難しい。
この論文には小説が載っている。
underlinespace-underlinetime underlineattention network founderliner underlineVQA problem, called StarVQA.
- 参考スコア(独自算出の注目度): 28.3487798060932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attention mechanism is blooming in computer vision nowadays. However, its
application to video quality assessment (VQA) has not been reported. Evaluating
the quality of in-the-wild videos is challenging due to the unknown of pristine
reference and shooting distortion. This paper presents a novel
\underline{s}pace-\underline{t}ime \underline{a}ttention network
fo\underline{r} the \underline{VQA} problem, named StarVQA. StarVQA builds a
Transformer by alternately concatenating the divided space-time attention. To
adapt the Transformer architecture for training, StarVQA designs a vectorized
regression loss by encoding the mean opinion score (MOS) to the probability
vector and embedding a special vectorized label token as the learnable
variable. To capture the long-range spatiotemporal dependencies of a video
sequence, StarVQA encodes the space-time position information of each patch to
the input of the Transformer. Various experiments are conducted on the de-facto
in-the-wild video datasets, including LIVE-VQC, KoNViD-1k, LSVQ, and
LSVQ-1080p. Experimental results demonstrate the superiority of the proposed
StarVQA over the state-of-the-art. Code and model will be available at:
https://github.com/DVL/StarVQA.
- Abstract(参考訳): 注目のメカニズムは近年コンピュータビジョンで開きつつある。
しかし,ビデオ品質評価(VQA)への応用は報告されていない。
地中ビデオの品質を評価することは、プリスタン参照の未知と撮影歪みのために難しい。
本稿では,StarVQA 問題として,新規な \underline{s}pace-\underline{t}ime \underline{a}ttention network fo\underline{r} を提案する。
StarVQAは、分割された時空の注意を交互に結合することでトランスフォーマーを構築する。
トレーニングにトランスフォーマーアーキテクチャを適用するため、starvqaは平均意見スコア(mos)を確率ベクトルに符号化し、特別ベクトルラベルトークンを学習可能な変数として組み込むことにより、ベクトル化回帰損失を設計できる。
ビデオシーケンスの長距離時空間依存性をキャプチャするために、starvqaは、各パッチの時空位置情報をトランスフォーマの入力にエンコードする。
LIVE-VQC, KoNViD-1k, LSVQ, LSVQ-1080p などのビデオデータセットのデファクト化実験を行った。
実験結果から,提案するstarvqaは最先端技術よりも優れていることが示された。
コードとモデルはhttps://github.com/dvl/starvqaで入手できる。
関連論文リスト
- Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Capturing Co-existing Distortions in User-Generated Content for
No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。
VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。
品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文 参考訳(メタデータ) (2023-07-31T16:29:29Z) - StarVQA+: Co-training Space-Time Attention for Video Quality Assessment [56.548364244708715]
自己注意に基づくトランスフォーマーは多くのコンピュータビジョンタスクで大きな成功を収めた。
しかし,ビデオ品質評価(VQA)への適用は今のところ不十分である。
本稿では,StarVQA+と呼ばれる,VQA問題に対する協調学習型空間時間注意ネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T14:27:31Z) - Contrastive Video Question Answering via Video Graph Transformer [184.3679515511028]
本稿では,ビデオグラフ変換モデル(CoVGT)を提案する。
CoVGTの特異性と優越性は3倍である。
我々は,CoVGTが従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T11:09:13Z) - DCVQE: A Hierarchical Transformer for Video Quality Assessment [3.700565386929641]
NR-VQAのためのDCVQE(Divide and Conquer Video Quality Estimator)を提案する。
私たちはこの階層的なTransformerの組み合わせをDivide and Conquer Transformer(DCTr)層と呼びます。
また,アノテートデータ間の順序関係を考慮に入れ,モデル学習のための新たな相関損失項を提案する。
論文 参考訳(メタデータ) (2022-10-10T00:22:16Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - End-to-End Video Question-Answer Generation with Generator-Pretester
Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。
キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文 参考訳(メタデータ) (2021-01-05T10:46:06Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。