論文の概要: MUSIQ: Multi-scale Image Quality Transformer
- arxiv url: http://arxiv.org/abs/2108.05997v1
- Date: Thu, 12 Aug 2021 23:36:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 13:09:05.585883
- Title: MUSIQ: Multi-scale Image Quality Transformer
- Title(参考訳): MUSIQ:マルチスケール画像品質変換器
- Authors: Junjie Ke, Qifei Wang, Yilin Wang, Peyman Milanfar, Feng Yang
- Abstract要約: 現在のIQA法は畳み込みニューラルネットワーク(CNN)に基づいている
マルチスケール画像品質変換器(MUSIQ)を設計し,サイズやアスペクト比の異なるネイティブ解像度画像を処理する。
提案手法は,マルチスケールの画像表現により,様々な粒度で画像品質を捉えることができる。
- 参考スコア(独自算出の注目度): 22.908901641767688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image quality assessment (IQA) is an important research topic for
understanding and improving visual experience. The current state-of-the-art IQA
methods are based on convolutional neural networks (CNNs). The performance of
CNN-based models is often compromised by the fixed shape constraint in batch
training. To accommodate this, the input images are usually resized and cropped
to a fixed shape, causing image quality degradation. To address this, we design
a multi-scale image quality Transformer (MUSIQ) to process native resolution
images with varying sizes and aspect ratios. With a multi-scale image
representation, our proposed method can capture image quality at different
granularities. Furthermore, a novel hash-based 2D spatial embedding and a scale
embedding is proposed to support the positional embedding in the multi-scale
representation. Experimental results verify that our method can achieve
state-of-the-art performance on multiple large scale IQA datasets such as
PaQ-2-PiQ, SPAQ and KonIQ-10k.
- Abstract(参考訳): 画像品質評価(IQA)は視覚経験の理解と改善のための重要な研究課題である。
現在のIQA法は畳み込みニューラルネットワーク(CNN)に基づいている。
CNNベースのモデルの性能は、バッチトレーニングにおける固定形状制約によってしばしば損なわれる。
これに対応するため、通常、入力画像は再サイズされ、一定の形状にトリミングされ、画質が劣化する。
そこで我々は,マルチスケール画像品質変換器 (MUSIQ) を設計し,サイズやアスペクト比の異なるネイティブ解像度画像を処理する。
マルチスケール画像表現により,提案手法は画像品質を異なる粒度で捉えることができる。
さらに,マルチスケール表現における位置埋め込みをサポートするため,ハッシュベースの2次元空間埋め込みとスケール埋め込みを提案する。
実験の結果,PaQ-2-PiQ,SPAQ,KonIQ-10kなどの大規模IQAデータセット上での最先端性能が得られた。
関連論文リスト
- Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Dual-Branch Network for Portrait Image Quality Assessment [76.27716058987251]
ポートレート画像品質評価のためのデュアルブランチネットワーク(PIQA)を提案する。
我々は2つのバックボーンネットワーク(textiti.e., Swin Transformer-B)を使用して、肖像画全体と顔画像から高品質な特徴を抽出する。
我々は、画像シーンの分類と品質評価モデルであるLIQEを利用して、品質認識とシーン固有の特徴を補助的特徴として捉えている。
論文 参考訳(メタデータ) (2024-05-14T12:43:43Z) - Transformer-based No-Reference Image Quality Assessment via Supervised
Contrastive Learning [36.695247860715874]
本稿では,新しいコントラスト学習 (Contrastive Learning, SCL) と NR-IQA モデル SaTQA を提案する。
まず、SCLによる大規模合成データセット上にモデルをトレーニングし、様々な歪みタイプとレベルの画像の劣化特徴を抽出する。
画像から歪み情報を抽出するために,CNNインダクティブバイアスとTransformerの長期依存性モデリング機能を組み合わせることで,マルチストリームブロック(MSB)を組み込んだバックボーンネットワークを提案する。
7つの標準IQAデータセットの実験結果から、SaTQAは合成データセットと認証データセットの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-12-12T06:01:41Z) - MSTRIQ: No Reference Image Quality Assessment Based on Swin Transformer
with Multi-Stage Fusion [8.338999282303755]
本稿では,Swin Transformerに基づく新しいアルゴリズムを提案する。
ローカル機能とグローバル機能の両方から情報を集約して、品質をより正確に予測する。
NTIRE 2022 Perceptual Image Quality Assessment Challengeのノーレファレンストラックで2位。
論文 参考訳(メタデータ) (2022-05-20T11:34:35Z) - Attentions Help CNNs See Better: Attention-based Hybrid Image Quality
Assessment Network [20.835800149919145]
画像品質評価(IQA)アルゴリズムは、画像品質に対する人間の認識を定量化することを目的としている。
GAN(Generative Adversarial Network)によって生成された歪み画像を、一見現実的なテクスチャで評価する際の性能低下がある。
本稿では,AHIQ(Hybrid Image Quality Assessment Network)を提案する。
論文 参考訳(メタデータ) (2022-04-22T03:59:18Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - Deep Superpixel-based Network for Blind Image Quality Assessment [4.079861933099766]
ブラインド画像品質評価(BIQA)モデルの目標は、人間の目で画像を評価する過程をシミュレートすることである。
マルチスケールおよびスーパーピクセルセグメンテーションに基づいて画像の画質を評価するために, DSN-IQA という深層適応型スーパーピクセルベースネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T08:26:58Z) - Multi-pooled Inception features for no-reference image quality
assessment [0.0]
畳み込みニューラルネットワーク(CNN)を用いた画像品質評価の新しい手法を提案する。
従来の手法とは対照的に、入力画像からパッチを取らない。代わりに、入力画像は全体として処理され、事前訓練されたCNN本体を通して実行され、解像度に依存しない多段階の深い特徴を抽出する。
我々は、MultiGAP-NRIQAと呼ばれるベストな提案が、3つのベンチマークIQAデータベースに対して最先端の結果を提供することができることを実証した。
論文 参考訳(メタデータ) (2020-11-10T15:09:49Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。