論文の概要: No-Reference Image Quality Assessment with Global-Local Progressive Integration and Semantic-Aligned Quality Transfer
- arxiv url: http://arxiv.org/abs/2408.03885v2
- Date: Mon, 24 Feb 2025 09:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:55.431937
- Title: No-Reference Image Quality Assessment with Global-Local Progressive Integration and Semantic-Aligned Quality Transfer
- Title(参考訳): グローバル・ローカル・プログレッシブ・インテグレーションとセマンティック・アラインド・クオリティ・トランスファーによる非参照画像品質評価
- Authors: Xiaoqi Wang, Yun Zhang,
- Abstract要約: 視覚変換器(ViT)を用いたグローバル特徴抽出器と畳み込みニューラルネットワーク(CNN)を用いた局所特徴抽出器を組み合わせた二重測定フレームワークを開発した。
多様な画像コンテンツの品質スコアを主観的な意見スコアで自動的にラベル付けすることで、トレーニングデータを拡張するセマンティック・アライン・クオリティ・トランスファー手法を提案する。
- 参考スコア(独自算出の注目度): 6.095342999639137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate measurement of image quality without reference signals remains a fundamental challenge in low-level visual perception applications. In this paper, we propose a global-local progressive integration model that addresses this challenge through three key contributions: 1) We develop a dual-measurement framework that combines vision Transformer (ViT)-based global feature extractor and convolutional neural networks (CNNs)-based local feature extractor to comprehensively capture and quantify image distortion characteristics at different granularities. 2) We propose a progressive feature integration scheme that utilizes multi-scale kernel configurations to align global and local features, and progressively aggregates them via an interactive stack of channel-wise self-attention and spatial interaction modules for multi-grained quality-aware representations. 3) We introduce a semantic-aligned quality transfer method that extends the training data by automatically labeling the quality scores of diverse image content with subjective opinion scores. Experimental results demonstrate that our model yields 5.04% and 5.40% improvements in Spearman's rank-order correlation coefficient (SROCC) for cross-authentic and cross-synthetic dataset generalization tests, respectively. Furthermore, the proposed semantic-aligned quality transfer further yields 2.26% and 13.23% performance gains in evaluations on single-synthetic and cross-synthetic datasets.
- Abstract(参考訳): 参照信号のない画像品質の正確な測定は、低レベルの視覚認識アプリケーションにおいて、依然として基本的な課題である。
本稿では,この課題に3つの重要な貢献を通じて対処するグローバル・ローカル・プログレッシブ・インテグレーション・モデルを提案する。
1)視覚変換器(ViT)に基づくグローバル特徴抽出器と畳み込みニューラルネットワーク(CNN)に基づく局所特徴抽出器を組み合わせて,画像の歪み特性を包括的に把握・定量化する。
2) マルチスケールカーネル構成を用いてグローバルな特徴とローカルな特徴の整合を図り, チャネルワイドな自己アテンションと空間的相互作用モジュールの対話的スタックを通じて, 多義的な品質認識表現を段階的に集約するプログレッシブ機能統合手法を提案する。
3) 多様な画像コンテンツの品質スコアを主観的意見スコアで自動的にラベル付けすることで, トレーニングデータを拡張するセマンティック・アライン・クオリティ・トランスファー手法を提案する。
実験の結果,スピアマンの階数相関係数(SROCC)の5.04%と5.40%の改善が得られた。
さらに、提案されたセマンティックアラインな品質伝達は、単合成およびクロス合成データセットの評価においてさらに2.26%と13.23%の性能向上をもたらす。
関連論文リスト
- M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AGIの品質評価のための包括的なフレームワークである。
中間画像記述を生成する構造付きマルチラウンド評価機構を含む。
複数のベンチマークデータセットで実施された実験は、M3-AGIQAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - DACB-Net: Dual Attention Guided Compact Bilinear Convolution Neural Network for Skin Disease Classification [3.3891365992104605]
本稿では,DACB-Netを用いた3分岐デュアルアテンションガイド型コンパクトバイリニアCNNについて紹介する。
グローバルブランチは、失った識別的特徴を補償し、関連する収穫地に対する注意熱マップ(AHM)を生成する。
このフレームワークはデータ強化、転送学習、微調整を統合し、データの不均衡に対処し、分類性能を改善し、計算コストを削減する。
論文 参考訳(メタデータ) (2024-07-03T18:32:54Z) - CMTNet: Convolutional Meets Transformer Network for Hyperspectral Images Classification [3.821081081400729]
現在の畳み込みニューラルネットワーク(CNN)は、ハイパースペクトルデータの局所的な特徴に焦点を当てている。
Transformerフレームワークは、ハイパースペクトル画像からグローバルな特徴を抽出する。
本研究は、CMTNet(Convolutional Meet Transformer Network)を紹介する。
論文 参考訳(メタデータ) (2024-06-20T07:56:51Z) - DeepHeteroIoT: Deep Local and Global Learning over Heterogeneous IoT Sensor Data [9.531834233076934]
本稿では,畳み込みニューラルネットワークと双方向Gated Recurrent Unitを併用して,局所的特徴とグローバルな特徴をそれぞれ学習する新しいディープラーニングモデルを提案する。
特に、このモデルはデータセット全体で平均3.37%の精度と2.85%のF1スコアの絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-03-29T06:24:07Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - DealMVC: Dual Contrastive Calibration for Multi-view Clustering [78.54355167448614]
マルチビュークラスタリングのための新しいデュアルコントラストキャリブレーションネットワーク(DealMVC)を提案する。
まず、グローバルなクロスビュー特徴を得るための融合機構を設計し、その上で、ビュー特徴類似性グラフと高信頼な擬ラベルグラフを整列させることにより、グローバルなコントラストキャリブレーション損失を提案する。
トレーニング手順の間、対話型クロスビュー機能は、ローカルレベルとグローバルレベルの両方で共同最適化される。
論文 参考訳(メタデータ) (2023-08-17T14:14:28Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Compound Frechet Inception Distance for Quality Assessment of GAN
Created Images [7.628527132779575]
GANの注目すべき応用の1つは、ディープフェイク(deep fakes)として知られる偽の人間の顔を開発することである。
生成された画像の品質を測定することは本質的に主観的だが、標準化されたメトリクスを使って品質を客観化しようとする試みがなされている。
我々は,より広い視覚的欠陥をカバーするために,低レベルの特徴を統合することにより,評価プロセスの堅牢性を向上させることを提案する。
論文 参考訳(メタデータ) (2021-06-16T06:53:27Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Self-Challenging Improves Cross-Domain Generalization [81.99554996975372]
畳み込みニューラルネットワーク(CNN)は、ラベルと相関する支配的特徴を活性化することにより、画像分類を行う。
ドメイン外データに対するCNNの一般化を著しく改善する簡単なトレーニングである自己整合表現(RSC)を導入する。
RSCはトレーニングデータ上で活性化される主要な機能に対して反復的に挑戦し、ラベルと相関する残りの機能を有効にするようネットワークに強制する。
論文 参考訳(メタデータ) (2020-07-05T21:42:26Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。