論文の概要: DCVQE: A Hierarchical Transformer for Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2210.04377v1
- Date: Mon, 10 Oct 2022 00:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:46:46.662667
- Title: DCVQE: A Hierarchical Transformer for Video Quality Assessment
- Title(参考訳): DCVQE:ビデオ品質評価のための階層変換器
- Authors: Zutong Li, Lei Yang
- Abstract要約: NR-VQAのためのDCVQE(Divide and Conquer Video Quality Estimator)を提案する。
私たちはこの階層的なTransformerの組み合わせをDivide and Conquer Transformer(DCTr)層と呼びます。
また,アノテートデータ間の順序関係を考慮に入れ,モデル学習のための新たな相関損失項を提案する。
- 参考スコア(独自算出の注目度): 3.700565386929641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The explosion of user-generated videos stimulates a great demand for
no-reference video quality assessment (NR-VQA). Inspired by our observation on
the actions of human annotation, we put forward a Divide and Conquer Video
Quality Estimator (DCVQE) for NR-VQA. Starting from extracting the frame-level
quality embeddings (QE), our proposal splits the whole sequence into a number
of clips and applies Transformers to learn the clip-level QE and update the
frame-level QE simultaneously; another Transformer is introduced to combine the
clip-level QE to generate the video-level QE. We call this hierarchical
combination of Transformers as a Divide and Conquer Transformer (DCTr) layer.
An accurate video quality feature extraction can be achieved by repeating the
process of this DCTr layer several times. Taking the order relationship among
the annotated data into account, we also propose a novel correlation loss term
for model training. Experiments on various datasets confirm the effectiveness
and robustness of our DCVQE model.
- Abstract(参考訳): ユーザ生成ビデオの爆発は、ノンリファレンスビデオ品質評価(NR-VQA)に対する大きな需要を刺激する。
人間のアノテーションの動作を観察した結果,NR-VQAのためのDCVQE(Divide and Conquer Video Quality Estimator)が提案された。
フレームレベルの品質埋め込み(QE)を抽出することから、提案手法はシーケンス全体を複数のクリップに分割し、トランスフォーマーを使用してクリップレベルのQEを学習し、フレームレベルのQEを同時に更新する。
私たちはこの階層的なTransformerの組み合わせをDivide and Conquer Transformer(DCTr)層と呼びます。
このDCTr層の処理を複数回繰り返すことにより、正確な映像品質特徴抽出を実現することができる。
また,注釈付きデータ間の順序関係を考慮に入れ,モデル学習のための新たな相関損失項を提案する。
各種データセットの実験により,DCVQEモデルの有効性とロバスト性が確認された。
関連論文リスト
- CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - Video Quality Assessment Based on Swin TransformerV2 and Coarse to Fine
Strategy [16.436012370209845]
非参照品質評価の目的は、高精細参照にアクセスせずに歪みビデオの品質を評価することである。
本研究では,複数の画像品質評価データセットを事前学習した拡張空間認識モジュールと,軽量時間融合モジュールを紹介する。
論文 参考訳(メタデータ) (2024-01-16T17:33:54Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - PeQuENet: Perceptual Quality Enhancement of Compressed Video with
Adaptation- and Attention-based Network [27.375830262287163]
本稿では,圧縮ビデオの知覚品質を高めるために,GAN(Generative Adversarial Network)フレームワークを提案する。
我々のフレームワークは、単一のモデルにおける異なる量子化パラメータ(QP)への注意と適応を含む。
実験により,提案したPeQuENetの圧縮圧縮画質向上アルゴリズムと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-16T02:49:28Z) - Video Joint Modelling Based on Hierarchical Transformer for
Co-summarization [0.0]
ビデオ要約は、ビデオの要約(ストーリーボードまたはビデオスキム)を自動的に生成することを目的としており、大規模なビデオ検索とブラウジングを容易にする。
既存の手法の多くは、類似したビデオ間の相関を無視する個々のビデオに対して、動画要約を行う。
階層変換器(VJMHT)を併用したビデオジョイントモデリングを提案する。
論文 参考訳(メタデータ) (2021-12-27T01:54:35Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Perceptual Image Quality Assessment with Transformers [4.005576542371173]
本論文では,フルリファレンス画像品質評価タスクにトランスアーキテクチャを適用した画像品質変換器(IQT)を提案する。
畳み込みニューラルネットワークのバックボーンを用いて,各入力画像から知覚的特徴表現を抽出する。
提案するiqtは,ntire 2021画像品質評価課題の参加者13名中,第1位にランクされた。
論文 参考訳(メタデータ) (2021-04-30T02:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。