論文の概要: Global-Local Progressive Integration Network for Blind Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2408.03885v1
- Date: Wed, 7 Aug 2024 16:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 12:44:51.417513
- Title: Global-Local Progressive Integration Network for Blind Image Quality Assessment
- Title(参考訳): ブラインド画像品質評価のためのグローバルローカルプログレッシブ統合ネットワーク
- Authors: Xiaoqi Wang, Yun Zhang,
- Abstract要約: 視覚変換器(ViT)は、長期依存をモデル化するためのコンピュータビジョンに優れているが、画像品質評価(IQA)には2つの重要な課題に直面している。
本稿では,GlintIQAと呼ばれるIQAのグローバルローカルプログレッシブインテグレーションネットワークを提案し,これらの課題を3つのキーコンポーネントを通して解決する。
- 参考スコア(独自算出の注目度): 6.095342999639137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) excel in computer vision for modeling long-term dependencies, yet face two key challenges for image quality assessment (IQA): discarding fine details during patch embedding, and requiring extensive training data due to lack of inductive biases. In this study, we propose a Global-Local progressive INTegration network for IQA, called GlintIQA, to address these issues through three key components: 1) Hybrid feature extraction combines ViT-based global feature extractor (VGFE) and convolutional neural networks (CNNs)-based local feature extractor (CLFE) to capture global coarse-grained features and local fine-grained features, respectively. The incorporation of CNNs mitigates the patch-level information loss and inductive bias constraints inherent to ViT architectures. 2) Progressive feature integration leverages diverse kernel sizes in embedding to spatially align coarse- and fine-grained features, and progressively aggregate these features by interactively stacking channel-wise attention and spatial enhancement modules to build effective quality-aware representations. 3) Content similarity-based labeling approach is proposed that automatically assigns quality labels to images with diverse content based on subjective quality scores. This addresses the scarcity of labeled training data in synthetic datasets and bolsters model generalization. The experimental results demonstrate the efficacy of our approach, yielding 5.04% average SROCC gains on cross-authentic dataset evaluations. Moreover, our model and its counterpart pre-trained on the proposed dataset respectively exhibited 5.40% and 13.23% improvements on across-synthetic datasets evaluation. The codes and proposed dataset will be released at https://github.com/XiaoqiWang/GlintIQA.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、長期的な依存関係をモデル化するためのコンピュータビジョンに優れるが、画像品質評価(IQA)には2つの重要な課題に直面している。
本研究では,GlintIQAと呼ばれるIQAのためのグローバルローカルプログレッシブインテグレーションネットワークを提案する。
1) ハイブリッド特徴抽出は,VTに基づくグローバル特徴抽出器(VGFE)と畳み込みニューラルネットワーク(CNN)に基づく局所特徴抽出器(CLFE)を組み合わせて,大域的粗粒度特徴と局所的細粒度特徴を抽出する。
CNNの組み込みは、ViTアーキテクチャ固有のパッチレベルの情報損失と帰納的バイアス制約を緩和する。
2) プログレッシブ機能統合は, 埋め込みにおけるカーネルサイズを多様に活用し, 粗い, きめ細かな特徴を空間的に整列させ, チャンネルワイドアテンションと空間拡張モジュールを相互に積み重ねて, 効果的な品質認識表現を構築することで, これらの特徴を段階的に集約する。
3)コンテンツ類似度に基づくラベル付け手法を提案する。
これは、合成データセットとボルスターモデル一般化におけるラベル付きトレーニングデータの不足に対処する。
実験の結果,提案手法の有効性が示され,SROCCの平均利得は5.04%であった。
さらに,提案したデータセット上で事前学習したモデルでは,合成データセットの評価において,それぞれ5.40%と13.23%の改善が見られた。
コードと提案されたデータセットはhttps://github.com/XiaoqiWang/GlintIQA.comで公開される。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - DACB-Net: Dual Attention Guided Compact Bilinear Convolution Neural Network for Skin Disease Classification [3.3891365992104605]
本稿では,DACB-Netを用いた3分岐デュアルアテンションガイド型コンパクトバイリニアCNNについて紹介する。
グローバルブランチは、失った識別的特徴を補償し、関連する収穫地に対する注意熱マップ(AHM)を生成する。
このフレームワークはデータ強化、転送学習、微調整を統合し、データの不均衡に対処し、分類性能を改善し、計算コストを削減する。
論文 参考訳(メタデータ) (2024-07-03T18:32:54Z) - CMTNet: Convolutional Meets Transformer Network for Hyperspectral Images Classification [3.821081081400729]
現在の畳み込みニューラルネットワーク(CNN)は、ハイパースペクトルデータの局所的な特徴に焦点を当てている。
Transformerフレームワークは、ハイパースペクトル画像からグローバルな特徴を抽出する。
本研究は、CMTNet(Convolutional Meet Transformer Network)を紹介する。
論文 参考訳(メタデータ) (2024-06-20T07:56:51Z) - DeepHeteroIoT: Deep Local and Global Learning over Heterogeneous IoT Sensor Data [9.531834233076934]
本稿では,畳み込みニューラルネットワークと双方向Gated Recurrent Unitを併用して,局所的特徴とグローバルな特徴をそれぞれ学習する新しいディープラーニングモデルを提案する。
特に、このモデルはデータセット全体で平均3.37%の精度と2.85%のF1スコアの絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-03-29T06:24:07Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Self-Challenging Improves Cross-Domain Generalization [81.99554996975372]
畳み込みニューラルネットワーク(CNN)は、ラベルと相関する支配的特徴を活性化することにより、画像分類を行う。
ドメイン外データに対するCNNの一般化を著しく改善する簡単なトレーニングである自己整合表現(RSC)を導入する。
RSCはトレーニングデータ上で活性化される主要な機能に対して反復的に挑戦し、ラベルと相関する残りの機能を有効にするようネットワークに強制する。
論文 参考訳(メタデータ) (2020-07-05T21:42:26Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。