論文の概要: BPCLIP: A Bottom-up Image Quality Assessment from Distortion to Semantics Based on CLIP
- arxiv url: http://arxiv.org/abs/2506.17969v1
- Date: Sun, 22 Jun 2025 09:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.677943
- Title: BPCLIP: A Bottom-up Image Quality Assessment from Distortion to Semantics Based on CLIP
- Title(参考訳): BPCLIP:CLIPに基づく歪みから意味論へのボトムアップ画像品質評価
- Authors: Chenyue Song, Chen Hui, Wei Zhang, Haiqi Zhu, Shaohui Liu, Hong Huang, Feng Jiang,
- Abstract要約: 比較言語-画像事前学習(CLIP)に基づくボトムアップ画像品質評価手法を提案する。
具体的には,エンコーダを用いて入力画像からマルチスケール特徴を抽出し,ボトムアップ型マルチスケールクロスアテンションモジュールを導入する。
6つの異なる次元に40の画像品質形容詞を組み込むことで、事前学習したCLIPテキストエンコーダが画像固有の品質の表現を生成することができる。
- 参考スコア(独自算出の注目度): 18.25854559825818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Quality Assessment (IQA) aims to evaluate the perceptual quality of images based on human subjective perception. Existing methods generally combine multiscale features to achieve high performance, but most rely on straightforward linear fusion of these features, which may not adequately capture the impact of distortions on semantic content. To address this, we propose a bottom-up image quality assessment approach based on the Contrastive Language-Image Pre-training (CLIP, a recently proposed model that aligns images and text in a shared feature space), named BPCLIP, which progressively extracts the impact of low-level distortions on high-level semantics. Specifically, we utilize an encoder to extract multiscale features from the input image and introduce a bottom-up multiscale cross attention module designed to capture the relationships between shallow and deep features. In addition, by incorporating 40 image quality adjectives across six distinct dimensions, we enable the pre-trained CLIP text encoder to generate representations of the intrinsic quality of the image, thereby strengthening the connection between image quality perception and human language. Our method achieves superior results on most public Full-Reference (FR) and No-Reference (NR) IQA benchmarks, while demonstrating greater robustness.
- Abstract(参考訳): 画像品質評価(IQA)は、人間の主観的知覚に基づいて、画像の知覚的品質を評価することを目的としている。
既存の手法は一般にマルチスケールな特徴を組み合わせて高い性能を達成するが、ほとんどの場合これらの特徴の直線的な融合に依存しており、意味的内容に対する歪みの影響を適切に捉えていない。
そこで本研究では,コントラスト言語-画像事前学習(CLIP)に基づくボトムアップ画像品質評価手法BPCLIPを提案する。
具体的には、エンコーダを用いて入力画像からマルチスケール特徴を抽出し、浅い特徴と深い特徴の関係を捉えるために設計されたボトムアップマルチスケール・クロスアテンション・モジュールを導入する。
さらに、6つの異なる次元に40の画像品質形容詞を組み込むことで、事前学習したCLIPテキストエンコーダが、画像固有の品質の表現を生成し、画像品質知覚と人間の言語との関係を強化する。
提案手法は,多くのパブリックな全参照 (FR) と No-Reference (NR) IQA ベンチマークにおいて,より堅牢性を示しながら優れた結果が得られる。
関連論文リスト
- Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。
本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T02:36:48Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Quality-Aware Image-Text Alignment for Opinion-Unaware Image Quality Assessment [8.431867616409958]
No-Reference Image Quality Assessment (NR-IQA) は、高画質の参照画像が利用できない場合に、人間の知覚に合わせて画像品質を測定する方法に焦点を当てている。
最先端のNR-IQAアプローチの多くは意見認識であり、トレーニングには人間のアノテーションが必要である。
人間の意見を必要としないCLIPベースの自己管理型意見認識アプローチであるQuariCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-17T11:32:18Z) - Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment [49.36799270585947]
No-Reference Point Cloud Quality Assessment (NR-PCQA) は、歪んだ点雲の知覚的品質を、参照なしで自動的に評価することを目的としている。
我々は,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。
提案手法は,最新のPCQA手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:16:07Z) - Re-IQA: Unsupervised Learning for Image Quality Assessment in the Wild [38.197794061203055]
教師なし環境で高レベルのコンテンツと低レベルの画像品質特徴を学習するために、2つの異なるエンコーダを訓練するためのMixture of Expertsアプローチを提案する。
本稿では,Re-IQAフレームワークから得られた高次・低次画像表現を,線形回帰モデルをトレーニングするために展開する。
本手法は,大規模画像品質評価データベース上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-02T05:06:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。