論文の概要: Visual Mechanisms Inspired Efficient Transformers for Image and Video
Quality Assessment
- arxiv url: http://arxiv.org/abs/2203.14557v1
- Date: Mon, 28 Mar 2022 07:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 15:31:54.739313
- Title: Visual Mechanisms Inspired Efficient Transformers for Image and Video
Quality Assessment
- Title(参考訳): 映像品質評価のための効率的な変換器の視覚メカニズム
- Authors: Junyong You
- Abstract要約: 人間の視覚系における知覚機構は、品質知覚の生成において重要な役割を担っている。
本稿では,効率的なウィンドウ変換アーキテクチャを用いた非参照視覚品質評価のための一般的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.584060970507507
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual (image, video) quality assessments can be modelled by visual features
in different domains, e.g., spatial, frequency, and temporal domains.
Perceptual mechanisms in the human visual system (HVS) play a crucial role in
the generation of quality perception. This paper proposes a general framework
for no-reference visual quality assessment using efficient windowed transformer
architectures. A lightweight module for multi-stage channel attention is
integrated into the Swin (shifted window) Transformer. Such module can
represent the appropriate perceptual mechanisms in image quality assessment
(IQA) to build an accurate IQA model. Meanwhile, representative features for
image quality perception in the spatial and frequency domains can also be
derived from the IQA model, which are then fed into another windowed
transformer architecture for video quality assessment (VQA). The VQA model
efficiently reuses attention information across local windows to tackle the
issue of expensive time and memory complexities of original transformer.
Experimental results on both large-scale IQA and VQA databases demonstrate that
the proposed quality assessment models outperform other state-of-the-art models
by large margins. The complete source code will be published on Github.
- Abstract(参考訳): 視覚(画像、ビデオ)の品質評価は、空間、周波数、時間領域など、異なる領域の視覚的特徴によってモデル化することができる。
ヒト視覚系(HVS)の知覚機構は、品質知覚の生成において重要な役割を果たす。
本稿では,効率的なウィンドウ変換アーキテクチャを用いた非参照視覚品質評価のための一般的なフレームワークを提案する。
マルチステージチャネルアテンションのための軽量モジュールは、Swin (shifted window) Transformerに統合される。
このようなモジュールは、画像品質評価(IQA)における適切な知覚機構を示し、正確なIQAモデルを構築することができる。
一方、空間及び周波数領域における画像品質知覚のための代表的特徴は、IQAモデルから導出することができ、ビデオ品質評価(VQA)のために別のウィンドウ変換アーキテクチャに入力される。
VQAモデルは、ローカルウィンドウ全体の注意情報を効率的に再利用し、元のトランスの高価な時間とメモリ複雑さの問題に取り組む。
大規模iqaデータベースとvqaデータベースにおける実験結果から,提案する品質評価モデルが,他の最先端モデルよりも高いマージンを示した。
完全なソースコードはGithubで公開される予定だ。
関連論文リスト
- Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - DisCoVQA: Temporal Distortion-Content Transformers for Video Quality
Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。
人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。
本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T15:31:27Z) - VTAMIQ: Transformers for Attention Modulated Image Quality Assessment [0.0]
本稿では,VTAMIQ(VTAMIQ)を用いた新しい全参照IQA手法を提案する。
本手法は既存のIQAデータセット上での競合や最先端の性能を実現する。
VTAMIQは、分類タスクとIQAタスクの両方に対して大規模な事前訓練を行うことで、目に見えない画像と歪みの集合によく一般化する。
論文 参考訳(メタデータ) (2021-10-04T18:35:29Z) - No-Reference Image Quality Assessment via Transformers, Relative
Ranking, and Self-Consistency [38.88541492121366]
No-Reference Image Quality Assessment (NR-IQA) の目的は、主観的評価に応じて知覚的画質を推定することである。
本稿では、変圧器における畳み込みニューラルネットワーク(CNN)と自己保持機構の利点を生かしたハイブリッドアプローチを利用して、NR-IQAタスクに対処する新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-08-16T02:07:08Z) - MUSIQ: Multi-scale Image Quality Transformer [22.908901641767688]
現在のIQA法は畳み込みニューラルネットワーク(CNN)に基づいている
マルチスケール画像品質変換器(MUSIQ)を設計し,サイズやアスペクト比の異なるネイティブ解像度画像を処理する。
提案手法は,マルチスケールの画像表現により,様々な粒度で画像品質を捉えることができる。
論文 参考訳(メタデータ) (2021-08-12T23:36:22Z) - Perceptual Image Quality Assessment with Transformers [4.005576542371173]
本論文では,フルリファレンス画像品質評価タスクにトランスアーキテクチャを適用した画像品質変換器(IQT)を提案する。
畳み込みニューラルネットワークのバックボーンを用いて,各入力画像から知覚的特徴表現を抽出する。
提案するiqtは,ntire 2021画像品質評価課題の参加者13名中,第1位にランクされた。
論文 参考訳(メタデータ) (2021-04-30T02:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。