論文の概要: DGIQA: Depth-guided Feature Attention and Refinement for Generalizable Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2505.24002v1
- Date: Thu, 29 May 2025 20:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.661378
- Title: DGIQA: Depth-guided Feature Attention and Refinement for Generalizable Image Quality Assessment
- Title(参考訳): DGIQA:画像品質評価のための深度誘導型特徴注意と補正
- Authors: Vaishnav Ramesh, Junliang Liu, Haining Wang, Md Jahidul Islam,
- Abstract要約: 非参照画像品質評価における長年の課題は、自然歪みを目にしない客観的な一般化の欠如である。
我々は,シーンの深度と空間的特徴を構造認識表現に蒸留する,Depth-Guided Cross-attention and refinement 機構を新たに開発した。
マルチモーダルアテンションベースプロジェクション関数としてTCBとDepth-CARを実装し,最も有用な特徴を選択する。
実験により,提案したDGIQAモデルにより,総合的および真正なベンチマークデータセット上での最先端(SOTA)性能が得られた。
- 参考スコア(独自算出の注目度): 9.851063768646847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A long-held challenge in no-reference image quality assessment (NR-IQA) learning from human subjective perception is the lack of objective generalization to unseen natural distortions. To address this, we integrate a novel Depth-Guided cross-attention and refinement (Depth-CAR) mechanism, which distills scene depth and spatial features into a structure-aware representation for improved NR-IQA. This brings in the knowledge of object saliency and relative contrast of the scene for more discriminative feature learning. Additionally, we introduce the idea of TCB (Transformer-CNN Bridge) to fuse high-level global contextual dependencies from a transformer backbone with local spatial features captured by a set of hierarchical CNN (convolutional neural network) layers. We implement TCB and Depth-CAR as multimodal attention-based projection functions to select the most informative features, which also improve training time and inference efficiency. Experimental results demonstrate that our proposed DGIQA model achieves state-of-the-art (SOTA) performance on both synthetic and authentic benchmark datasets. More importantly, DGIQA outperforms SOTA models on cross-dataset evaluations as well as in assessing natural image distortions such as low-light effects, hazy conditions, and lens flares.
- Abstract(参考訳): 人間の主観的知覚から学ぶ非参照画像品質評価(NR-IQA)における長年の課題は、客観的な一般化の欠如と目に見えない自然な歪みである。
そこで我々は,シーンの深さと空間的特徴を蒸留してNR-IQAを改良した構造認識表現を実現する,Depth-Guided Cross-attention and refinement (Depth-CAR) 機構を開発した。
これにより、より差別的な特徴学習のために、オブジェクトの正当性やシーンの相対的なコントラストに関する知識がもたらされる。
さらに、トランスフォーマー・CNNブリッジ(Transformer-CNN Bridge)は、階層的なCNN(畳み込みニューラルネットワーク)層によってキャプチャされた局所的な空間的特徴を持つトランスフォーマーバックボーンから、高レベルのグローバルなコンテキスト依存性を融合する。
TCBとDepth-CARをマルチモーダルアテンションベースプロジェクション関数として実装し、最も情報性の高い特徴を選択し、トレーニング時間と推論効率を向上させる。
実験結果から,提案したDGIQAモデルが,総合的および真正なベンチマークデータセット上でのSOTA(State-of-the-art)性能を実現することが示された。
さらに重要なことは、DGIQAはSOTAモデルよりも、低照度効果、光沢のある条件、レンズフレアなどの自然な画像歪みの評価に優れています。
関連論文リスト
- Scene Perceived Image Perceptual Score (SPIPS): combining global and local perception for image quality assessment [0.0]
深層学習と人間の知覚のギャップを埋める新しいIQA手法を提案する。
我々のモデルは、深い特徴を高レベルの意味情報と低レベルの知覚の詳細に分解し、それぞれのストリームを別々に扱う。
このハイブリッド設計により、グローバルコンテキストと複雑な画像の詳細の両方を評価し、人間の視覚過程をより良く反映することができる。
論文 参考訳(メタデータ) (2025-04-24T04:06:07Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。
我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。
提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T01:34:00Z) - Diffusion Model Based Visual Compensation Guidance and Visual Difference Analysis for No-Reference Image Quality Assessment [78.21609845377644]
本稿では, 複雑な関係をモデル化する能力を示す, 最先端(SOTA)生成モデルを提案する。
生成した拡張画像とノイズを含む画像を利用する新しい拡散復元ネットワークを考案する。
2つの視覚評価枝は、得られた高レベル特徴情報を包括的に解析するように設計されている。
論文 参考訳(メタデータ) (2024-02-22T09:39:46Z) - Transformer-based No-Reference Image Quality Assessment via Supervised
Contrastive Learning [36.695247860715874]
本稿では,新しいコントラスト学習 (Contrastive Learning, SCL) と NR-IQA モデル SaTQA を提案する。
まず、SCLによる大規模合成データセット上にモデルをトレーニングし、様々な歪みタイプとレベルの画像の劣化特徴を抽出する。
画像から歪み情報を抽出するために,CNNインダクティブバイアスとTransformerの長期依存性モデリング機能を組み合わせることで,マルチストリームブロック(MSB)を組み込んだバックボーンネットワークを提案する。
7つの標準IQAデータセットの実験結果から、SaTQAは合成データセットと認証データセットの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-12-12T06:01:41Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。