論文の概要: No-Reference Image Quality Assessment with Global-Local Progressive Integration and Semantic-Aligned Quality Transfer
- arxiv url: http://arxiv.org/abs/2408.03885v2
- Date: Mon, 24 Feb 2025 09:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:46:47.665152
- Title: No-Reference Image Quality Assessment with Global-Local Progressive Integration and Semantic-Aligned Quality Transfer
- Title(参考訳): グローバル・ローカル・プログレッシブ・インテグレーションとセマンティック・アラインド・クオリティ・トランスファーによる非参照画像品質評価
- Authors: Xiaoqi Wang, Yun Zhang,
- Abstract要約: 視覚変換器(ViT)を用いたグローバル特徴抽出器と畳み込みニューラルネットワーク(CNN)を用いた局所特徴抽出器を組み合わせた二重測定フレームワークを開発した。
多様な画像コンテンツの品質スコアを主観的な意見スコアで自動的にラベル付けすることで、トレーニングデータを拡張するセマンティック・アライン・クオリティ・トランスファー手法を提案する。
- 参考スコア(独自算出の注目度): 6.095342999639137
- License:
- Abstract: Accurate measurement of image quality without reference signals remains a fundamental challenge in low-level visual perception applications. In this paper, we propose a global-local progressive integration model that addresses this challenge through three key contributions: 1) We develop a dual-measurement framework that combines vision Transformer (ViT)-based global feature extractor and convolutional neural networks (CNNs)-based local feature extractor to comprehensively capture and quantify image distortion characteristics at different granularities. 2) We propose a progressive feature integration scheme that utilizes multi-scale kernel configurations to align global and local features, and progressively aggregates them via an interactive stack of channel-wise self-attention and spatial interaction modules for multi-grained quality-aware representations. 3) We introduce a semantic-aligned quality transfer method that extends the training data by automatically labeling the quality scores of diverse image content with subjective opinion scores. Experimental results demonstrate that our model yields 5.04% and 5.40% improvements in Spearman's rank-order correlation coefficient (SROCC) for cross-authentic and cross-synthetic dataset generalization tests, respectively. Furthermore, the proposed semantic-aligned quality transfer further yields 2.26% and 13.23% performance gains in evaluations on single-synthetic and cross-synthetic datasets.
- Abstract(参考訳): 参照信号のない画像品質の正確な測定は、低レベルの視覚認識アプリケーションにおいて、依然として基本的な課題である。
本稿では,この課題に3つの重要な貢献を通じて対処するグローバル・ローカル・プログレッシブ・インテグレーション・モデルを提案する。
1)視覚変換器(ViT)に基づくグローバル特徴抽出器と畳み込みニューラルネットワーク(CNN)に基づく局所特徴抽出器を組み合わせて,画像の歪み特性を包括的に把握・定量化する。
2) マルチスケールカーネル構成を用いてグローバルな特徴とローカルな特徴の整合を図り, チャネルワイドな自己アテンションと空間的相互作用モジュールの対話的スタックを通じて, 多義的な品質認識表現を段階的に集約するプログレッシブ機能統合手法を提案する。
3) 多様な画像コンテンツの品質スコアを主観的意見スコアで自動的にラベル付けすることで, トレーニングデータを拡張するセマンティック・アライン・クオリティ・トランスファー手法を提案する。
実験の結果,スピアマンの階数相関係数(SROCC)の5.04%と5.40%の改善が得られた。
さらに、提案されたセマンティックアラインな品質伝達は、単合成およびクロス合成データセットの評価においてさらに2.26%と13.23%の性能向上をもたらす。
関連論文リスト
- Pruning Deep Convolutional Neural Network Using Conditional Mutual Information [10.302118493842647]
畳み込みニューラルネットワーク(CNN)は、画像分類タスクにおいて高い性能を達成するが、リソース制限ハードウェアへのデプロイは困難である。
本稿では,各層における最も情報性の高い特徴を識別し,選択的に保持するCNNに対して,構造化されたフィルタ解析手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:23:59Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - CMTNet: Convolutional Meets Transformer Network for Hyperspectral Images Classification [3.821081081400729]
現在の畳み込みニューラルネットワーク(CNN)は、ハイパースペクトルデータの局所的な特徴に焦点を当てている。
Transformerフレームワークは、ハイパースペクトル画像からグローバルな特徴を抽出する。
本研究は、CMTNet(Convolutional Meet Transformer Network)を紹介する。
論文 参考訳(メタデータ) (2024-06-20T07:56:51Z) - DeepHeteroIoT: Deep Local and Global Learning over Heterogeneous IoT Sensor Data [9.531834233076934]
本稿では,畳み込みニューラルネットワークと双方向Gated Recurrent Unitを併用して,局所的特徴とグローバルな特徴をそれぞれ学習する新しいディープラーニングモデルを提案する。
特に、このモデルはデータセット全体で平均3.37%の精度と2.85%のF1スコアの絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-03-29T06:24:07Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Self-Challenging Improves Cross-Domain Generalization [81.99554996975372]
畳み込みニューラルネットワーク(CNN)は、ラベルと相関する支配的特徴を活性化することにより、画像分類を行う。
ドメイン外データに対するCNNの一般化を著しく改善する簡単なトレーニングである自己整合表現(RSC)を導入する。
RSCはトレーニングデータ上で活性化される主要な機能に対して反復的に挑戦し、ラベルと相関する残りの機能を有効にするようネットワークに強制する。
論文 参考訳(メタデータ) (2020-07-05T21:42:26Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。