論文の概要: Video Quality Assessment Based on Swin TransformerV2 and Coarse to Fine
Strategy
- arxiv url: http://arxiv.org/abs/2401.08522v1
- Date: Tue, 16 Jan 2024 17:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:48:19.721572
- Title: Video Quality Assessment Based on Swin TransformerV2 and Coarse to Fine
Strategy
- Title(参考訳): Swin TransformerV2に基づく映像品質評価と微視的戦略
- Authors: Zihao Yu, Fengbin Guan, Yiting Lu, Xin Li, Zhibo Chen
- Abstract要約: 非参照品質評価の目的は、高精細参照にアクセスせずに歪みビデオの品質を評価することである。
本研究では,複数の画像品質評価データセットを事前学習した拡張空間認識モジュールと,軽量時間融合モジュールを紹介する。
- 参考スコア(独自算出の注目度): 16.436012370209845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of non-reference video quality assessment is to evaluate the
quality of distorted video without access to reference high-definition
references. In this study, we introduce an enhanced spatial perception module,
pre-trained on multiple image quality assessment datasets, and a lightweight
temporal fusion module to address the no-reference visual quality assessment
(NR-VQA) task. This model implements Swin Transformer V2 as a local-level
spatial feature extractor and fuses these multi-stage representations through a
series of transformer layers. Furthermore, a temporal transformer is utilized
for spatiotemporal feature fusion across the video. To accommodate compressed
videos of varying bitrates, we incorporate a coarse-to-fine contrastive
strategy to enrich the model's capability to discriminate features from videos
of different bitrates. This is an expanded version of the one-page abstract.
- Abstract(参考訳): 非参照ビデオ品質評価の目的は、参照高精細参照にアクセスせずに歪みビデオの品質を評価することである。
本研究では,複数の画像品質評価データセットを事前学習した空間認識モジュールと,非参照視覚品質評価(NR-VQA)タスクに対処する軽量時間融合モジュールを導入する。
このモデルはSwin Transformer V2を局所的な空間特徴抽出器として実装し、これらの多段階表現を一連の変換器層を通して融合する。
さらに、ビデオ間の時空間的特徴融合に時間変換器を用いる。
異なるビットレートの動画から特徴を識別するモデルの能力を強化するために、様々なビットレートの圧縮ビデオに対応するために、粗いコントラスト戦略を組み込んだ。
これはone-page abstractの拡張版である。
関連論文リスト
- Modular Blind Video Quality Assessment [33.657933680973194]
Blind Video Quality Assessment (BVQA) は、幅広いビデオベースのプラットフォームやサービスにおけるエンドユーザーの視聴体験を評価し改善する上で重要な役割を担っている。
本稿では,モジュール性向上のためのモジュール型BVQAモデルとトレーニング方法を提案する。
論文 参考訳(メタデータ) (2024-02-29T15:44:00Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - DCVQE: A Hierarchical Transformer for Video Quality Assessment [3.700565386929641]
NR-VQAのためのDCVQE(Divide and Conquer Video Quality Estimator)を提案する。
私たちはこの階層的なTransformerの組み合わせをDivide and Conquer Transformer(DCTr)層と呼びます。
また,アノテートデータ間の順序関係を考慮に入れ,モデル学習のための新たな相関損失項を提案する。
論文 参考訳(メタデータ) (2022-10-10T00:22:16Z) - Time-Space Transformers for Video Panoptic Segmentation [3.2489082010225494]
画素レベルのセマンティックスとクリップレベルのインスタンスセグメンテーションを同時に予測する手法を提案する。
我々のネットワークはVPS-Transformerと呼ばれ、単一フレームのパノプティクスセグメンテーションのための畳み込みアーキテクチャと、純粋なTransformerブロックのインスタンス化に基づくビデオモジュールを組み合わせる。
論文 参考訳(メタデータ) (2022-10-07T13:30:11Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Learning Generalized Spatial-Temporal Deep Feature Representation for
No-Reference Video Quality Assessment [16.974008463660688]
クロスコンテンツ,-解像,-フレームレート品質予測における高一般化機能の実現を目指して,無レファレンス映像品質評価手法を提案する。
特に,空間-時間領域における効果的な特徴表現を学習することにより,映像の質を評価する。
実験の結果,提案手法は, クロスデータセット設定における最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-27T13:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。