論文の概要: Visual Mechanisms Inspired Efficient Transformers for Image and Video
Quality Assessment
- arxiv url: http://arxiv.org/abs/2203.14557v1
- Date: Mon, 28 Mar 2022 07:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 15:31:54.739313
- Title: Visual Mechanisms Inspired Efficient Transformers for Image and Video
Quality Assessment
- Title(参考訳): 映像品質評価のための効率的な変換器の視覚メカニズム
- Authors: Junyong You
- Abstract要約: 人間の視覚系における知覚機構は、品質知覚の生成において重要な役割を担っている。
本稿では,効率的なウィンドウ変換アーキテクチャを用いた非参照視覚品質評価のための一般的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.584060970507507
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual (image, video) quality assessments can be modelled by visual features
in different domains, e.g., spatial, frequency, and temporal domains.
Perceptual mechanisms in the human visual system (HVS) play a crucial role in
the generation of quality perception. This paper proposes a general framework
for no-reference visual quality assessment using efficient windowed transformer
architectures. A lightweight module for multi-stage channel attention is
integrated into the Swin (shifted window) Transformer. Such module can
represent the appropriate perceptual mechanisms in image quality assessment
(IQA) to build an accurate IQA model. Meanwhile, representative features for
image quality perception in the spatial and frequency domains can also be
derived from the IQA model, which are then fed into another windowed
transformer architecture for video quality assessment (VQA). The VQA model
efficiently reuses attention information across local windows to tackle the
issue of expensive time and memory complexities of original transformer.
Experimental results on both large-scale IQA and VQA databases demonstrate that
the proposed quality assessment models outperform other state-of-the-art models
by large margins. The complete source code will be published on Github.
- Abstract(参考訳): 視覚(画像、ビデオ)の品質評価は、空間、周波数、時間領域など、異なる領域の視覚的特徴によってモデル化することができる。
ヒト視覚系(HVS)の知覚機構は、品質知覚の生成において重要な役割を果たす。
本稿では,効率的なウィンドウ変換アーキテクチャを用いた非参照視覚品質評価のための一般的なフレームワークを提案する。
マルチステージチャネルアテンションのための軽量モジュールは、Swin (shifted window) Transformerに統合される。
このようなモジュールは、画像品質評価(IQA)における適切な知覚機構を示し、正確なIQAモデルを構築することができる。
一方、空間及び周波数領域における画像品質知覚のための代表的特徴は、IQAモデルから導出することができ、ビデオ品質評価(VQA)のために別のウィンドウ変換アーキテクチャに入力される。
VQAモデルは、ローカルウィンドウ全体の注意情報を効率的に再利用し、元のトランスの高価な時間とメモリ複雑さの問題に取り組む。
大規模iqaデータベースとvqaデータベースにおける実験結果から,提案する品質評価モデルが,他の最先端モデルよりも高いマージンを示した。
完全なソースコードはGithubで公開される予定だ。
関連論文リスト
- Diffusion Model Based Visual Compensation Guidance and Visual Difference
Analysis for No-Reference Image Quality Assessment [82.13830107682232]
本稿では, 複雑な関係をモデル化する能力を示す, 最先端(SOTA)生成モデルを提案する。
生成した拡張画像とノイズを含む画像を利用する新しい拡散復元ネットワークを考案する。
2つの視覚評価枝は、得られた高レベル特徴情報を包括的に解析するように設計されている。
論文 参考訳(メタデータ) (2024-02-22T09:39:46Z) - Analysis of Video Quality Datasets via Design of Minimalistic Video
Quality Models [55.694387785978996]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z) - Blind Image Quality Assessment via Transformer Predicted Error Map and
Perceptual Quality Token [19.67014524146261]
近年,非参照画像品質評価(NR-IQA)が注目されている。
予測された客観的誤差マップと知覚的品質トークンを用いたTransformerベースのNR-IQAモデルを提案する。
提案手法は, 実画像データベースと合成画像データベースの両方において, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-05-16T11:17:54Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - VTAMIQ: Transformers for Attention Modulated Image Quality Assessment [0.0]
本稿では,VTAMIQ(VTAMIQ)を用いた新しい全参照IQA手法を提案する。
本手法は既存のIQAデータセット上での競合や最先端の性能を実現する。
VTAMIQは、分類タスクとIQAタスクの両方に対して大規模な事前訓練を行うことで、目に見えない画像と歪みの集合によく一般化する。
論文 参考訳(メタデータ) (2021-10-04T18:35:29Z) - No-Reference Image Quality Assessment via Transformers, Relative
Ranking, and Self-Consistency [38.88541492121366]
No-Reference Image Quality Assessment (NR-IQA) の目的は、主観的評価に応じて知覚的画質を推定することである。
本稿では、変圧器における畳み込みニューラルネットワーク(CNN)と自己保持機構の利点を生かしたハイブリッドアプローチを利用して、NR-IQAタスクに対処する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-08-16T02:07:08Z) - MUSIQ: Multi-scale Image Quality Transformer [22.908901641767688]
現在のIQA法は畳み込みニューラルネットワーク(CNN)に基づいている
マルチスケール画像品質変換器(MUSIQ)を設計し,サイズやアスペクト比の異なるネイティブ解像度画像を処理する。
提案手法は,マルチスケールの画像表現により,様々な粒度で画像品質を捉えることができる。
論文 参考訳(メタデータ) (2021-08-12T23:36:22Z) - Perceptual Image Quality Assessment with Transformers [4.005576542371173]
本論文では,フルリファレンス画像品質評価タスクにトランスアーキテクチャを適用した画像品質変換器(IQT)を提案する。
畳み込みニューラルネットワークのバックボーンを用いて,各入力画像から知覚的特徴表現を抽出する。
提案するiqtは,ntire 2021画像品質評価課題の参加者13名中,第1位にランクされた。
論文 参考訳(メタデータ) (2021-04-30T02:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。