Fugu-MT 論文翻訳(概要): Visual Mechanisms Inspired Efficient Transformers for Image and Video Quality Assessment

論文の概要: Visual Mechanisms Inspired Efficient Transformers for Image and Video Quality Assessment

arxiv url: http://arxiv.org/abs/2203.14557v1
Date: Mon, 28 Mar 2022 07:55:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-29 15:31:54.739313
Title: Visual Mechanisms Inspired Efficient Transformers for Image and Video Quality Assessment
Title（参考訳）: 映像品質評価のための効率的な変換器の視覚メカニズム
Authors: Junyong You
Abstract要約: 人間の視覚系における知覚機構は、品質知覚の生成において重要な役割を担っている。本稿では,効率的なウィンドウ変換アーキテクチャを用いた非参照視覚品質評価のための一般的なフレームワークを提案する。
参考スコア（独自算出の注目度）: 5.584060970507507
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Visual (image, video) quality assessments can be modelled by visual features in different domains, e.g., spatial, frequency, and temporal domains. Perceptual mechanisms in the human visual system (HVS) play a crucial role in the generation of quality perception. This paper proposes a general framework for no-reference visual quality assessment using efficient windowed transformer architectures. A lightweight module for multi-stage channel attention is integrated into the Swin (shifted window) Transformer. Such module can represent the appropriate perceptual mechanisms in image quality assessment (IQA) to build an accurate IQA model. Meanwhile, representative features for image quality perception in the spatial and frequency domains can also be derived from the IQA model, which are then fed into another windowed transformer architecture for video quality assessment (VQA). The VQA model efficiently reuses attention information across local windows to tackle the issue of expensive time and memory complexities of original transformer. Experimental results on both large-scale IQA and VQA databases demonstrate that the proposed quality assessment models outperform other state-of-the-art models by large margins. The complete source code will be published on Github.
Abstract（参考訳）: 視覚(画像、ビデオ)の品質評価は、空間、周波数、時間領域など、異なる領域の視覚的特徴によってモデル化することができる。ヒト視覚系(HVS)の知覚機構は、品質知覚の生成において重要な役割を果たす。本稿では,効率的なウィンドウ変換アーキテクチャを用いた非参照視覚品質評価のための一般的なフレームワークを提案する。マルチステージチャネルアテンションのための軽量モジュールは、Swin (shifted window) Transformerに統合される。このようなモジュールは、画像品質評価(IQA)における適切な知覚機構を示し、正確なIQAモデルを構築することができる。一方、空間及び周波数領域における画像品質知覚のための代表的特徴は、IQAモデルから導出することができ、ビデオ品質評価(VQA)のために別のウィンドウ変換アーキテクチャに入力される。 VQAモデルは、ローカルウィンドウ全体の注意情報を効率的に再利用し、元のトランスの高価な時間とメモリ複雑さの問題に取り組む。大規模iqaデータベースとvqaデータベースにおける実験結果から,提案する品質評価モデルが,他の最先端モデルよりも高いマージンを示した。完全なソースコードはGithubで公開される予定だ。

関連論文リスト

EyeSim-VQA: A Free-Energy-Guided Eye Simulation Framework for Video Quality Assessment [68.77813885751308]
EyeSimVQAは、自由エネルギーベースの自己修復を取り入れた新しいVQAフレームワークである。現状の手法と比較して,EyeSimVQAは競争力や性能に優れることを示す。
論文参考訳（メタデータ） (2025-06-13T08:00:54Z)
Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-05-06T15:29:32Z)
Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。 Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文参考訳（メタデータ） (2024-07-24T06:42:46Z)
Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-14T16:32:11Z)
Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-04-27T02:40:36Z)
Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。 QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文参考訳（メタデータ） (2023-03-27T11:13:50Z)
Neighbourhood Representative Sampling for Efficient End-to-end Video Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示すそこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文参考訳（メタデータ） (2022-10-11T11:38:07Z)
DisCoVQA: Temporal Distortion-Content Transformers for Video Quality Assessment [56.42140467085586]
いくつかの時間的変動は時間的歪みを引き起こし、余分な品質劣化を引き起こす。人間の視覚システムは、しばしば異なる内容のフレームに対して異なる注意を向ける。本稿では, この2つの問題に対処するための, トランスフォーマーを用いたVQA手法を提案する。
論文参考訳（メタデータ） (2022-06-20T15:31:27Z)
VTAMIQ: Transformers for Attention Modulated Image Quality Assessment [0.0]
本稿では,VTAMIQ(VTAMIQ)を用いた新しい全参照IQA手法を提案する。本手法は既存のIQAデータセット上での競合や最先端の性能を実現する。 VTAMIQは、分類タスクとIQAタスクの両方に対して大規模な事前訓練を行うことで、目に見えない画像と歪みの集合によく一般化する。
論文参考訳（メタデータ） (2021-10-04T18:35:29Z)
No-Reference Image Quality Assessment via Transformers, Relative Ranking, and Self-Consistency [38.88541492121366]
No-Reference Image Quality Assessment (NR-IQA) の目的は、主観的評価に応じて知覚的画質を推定することである。本稿では、変圧器における畳み込みニューラルネットワーク(CNN)と自己保持機構の利点を生かしたハイブリッドアプローチを利用して、NR-IQAタスクに対処する新しいモデルを提案する。
論文参考訳（メタデータ） (2021-08-16T02:07:08Z)
MUSIQ: Multi-scale Image Quality Transformer [22.908901641767688]
現在のIQA法は畳み込みニューラルネットワーク(CNN)に基づいているマルチスケール画像品質変換器(MUSIQ)を設計し,サイズやアスペクト比の異なるネイティブ解像度画像を処理する。提案手法は,マルチスケールの画像表現により,様々な粒度で画像品質を捉えることができる。
論文参考訳（メタデータ） (2021-08-12T23:36:22Z)
Perceptual Image Quality Assessment with Transformers [4.005576542371173]
本論文では,フルリファレンス画像品質評価タスクにトランスアーキテクチャを適用した画像品質変換器(IQT)を提案する。畳み込みニューラルネットワークのバックボーンを用いて,各入力画像から知覚的特徴表現を抽出する。提案するiqtは,ntire 2021画像品質評価課題の参加者13名中,第1位にランクされた。
論文参考訳（メタデータ） (2021-04-30T02:45:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。