論文の概要: BPCLIP: A Bottom-up Image Quality Assessment from Distortion to Semantics Based on CLIP
- arxiv url: http://arxiv.org/abs/2506.17969v1
- Date: Sun, 22 Jun 2025 09:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.677943
- Title: BPCLIP: A Bottom-up Image Quality Assessment from Distortion to Semantics Based on CLIP
- Title(参考訳): BPCLIP:CLIPに基づく歪みから意味論へのボトムアップ画像品質評価
- Authors: Chenyue Song, Chen Hui, Wei Zhang, Haiqi Zhu, Shaohui Liu, Hong Huang, Feng Jiang,
- Abstract要約: 比較言語-画像事前学習(CLIP)に基づくボトムアップ画像品質評価手法を提案する。
具体的には,エンコーダを用いて入力画像からマルチスケール特徴を抽出し,ボトムアップ型マルチスケールクロスアテンションモジュールを導入する。
6つの異なる次元に40の画像品質形容詞を組み込むことで、事前学習したCLIPテキストエンコーダが画像固有の品質の表現を生成することができる。
- 参考スコア(独自算出の注目度): 18.25854559825818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Quality Assessment (IQA) aims to evaluate the perceptual quality of images based on human subjective perception. Existing methods generally combine multiscale features to achieve high performance, but most rely on straightforward linear fusion of these features, which may not adequately capture the impact of distortions on semantic content. To address this, we propose a bottom-up image quality assessment approach based on the Contrastive Language-Image Pre-training (CLIP, a recently proposed model that aligns images and text in a shared feature space), named BPCLIP, which progressively extracts the impact of low-level distortions on high-level semantics. Specifically, we utilize an encoder to extract multiscale features from the input image and introduce a bottom-up multiscale cross attention module designed to capture the relationships between shallow and deep features. In addition, by incorporating 40 image quality adjectives across six distinct dimensions, we enable the pre-trained CLIP text encoder to generate representations of the intrinsic quality of the image, thereby strengthening the connection between image quality perception and human language. Our method achieves superior results on most public Full-Reference (FR) and No-Reference (NR) IQA benchmarks, while demonstrating greater robustness.
- Abstract(参考訳): 画像品質評価(IQA)は、人間の主観的知覚に基づいて、画像の知覚的品質を評価することを目的としている。
既存の手法は一般にマルチスケールな特徴を組み合わせて高い性能を達成するが、ほとんどの場合これらの特徴の直線的な融合に依存しており、意味的内容に対する歪みの影響を適切に捉えていない。
そこで本研究では,コントラスト言語-画像事前学習(CLIP)に基づくボトムアップ画像品質評価手法BPCLIPを提案する。
具体的には、エンコーダを用いて入力画像からマルチスケール特徴を抽出し、浅い特徴と深い特徴の関係を捉えるために設計されたボトムアップマルチスケール・クロスアテンション・モジュールを導入する。
さらに、6つの異なる次元に40の画像品質形容詞を組み込むことで、事前学習したCLIPテキストエンコーダが、画像固有の品質の表現を生成し、画像品質知覚と人間の言語との関係を強化する。
提案手法は,多くのパブリックな全参照 (FR) と No-Reference (NR) IQA ベンチマークにおいて,より堅牢性を示しながら優れた結果が得られる。
関連論文リスト
- Text-Visual Semantic Constrained AI-Generated Image Quality Assessment [47.575342788480505]
本稿では,AI生成画像におけるテキスト画像の一貫性と知覚歪みの両方を包括的に評価する統合フレームワークを提案する。
このアプローチでは、複数のモデルから重要な機能を統合し、2つのコアモジュールを導入することで、上記の課題に取り組む。
複数のベンチマークデータセットで実施されたテストは、SC-AGIQAが既存の最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-07-14T16:21:05Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。
本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T02:36:48Z) - Extremely low-bitrate Image Compression Semantically Disentangled by LMMs from a Human Perception Perspective [2.542077227403488]
人間のプログレッシブ・コンプレッション・メカニズムにインスパイアされたセマンティック・ディスタングル・イメージ・圧縮フレームワークを提案する。
我々はLMMを利用して、全体記述、オブジェクト詳細記述、セマンティックセグメンテーションマスクを含む重要なセマンティックコンポーネントを抽出する。
本研究では,事前学習したControlNet上に構築され,オブジェクトレベルのテキスト記述やセマンティックマスクによって条件付けられたオブジェクトの詳細を復元する,注意誘導型オブジェクト復元モデルを提案する。
論文 参考訳(メタデータ) (2025-03-01T08:27:11Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Quality-Aware Image-Text Alignment for Opinion-Unaware Image Quality Assessment [8.431867616409958]
No-Reference Image Quality Assessment (NR-IQA) は、高画質の参照画像が利用できない場合に、人間の知覚に合わせて画像品質を測定する方法に焦点を当てている。
最先端のNR-IQAアプローチの多くは意見認識であり、トレーニングには人間のアノテーションが必要である。
人間の意見を必要としないCLIPベースの自己管理型意見認識アプローチであるQuariCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-17T11:32:18Z) - Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment [49.36799270585947]
No-Reference Point Cloud Quality Assessment (NR-PCQA) は、歪んだ点雲の知覚的品質を、参照なしで自動的に評価することを目的としている。
我々は,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。
提案手法は,最新のPCQA手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:16:07Z) - Re-IQA: Unsupervised Learning for Image Quality Assessment in the Wild [38.197794061203055]
教師なし環境で高レベルのコンテンツと低レベルの画像品質特徴を学習するために、2つの異なるエンコーダを訓練するためのMixture of Expertsアプローチを提案する。
本稿では,Re-IQAフレームワークから得られた高次・低次画像表現を,線形回帰モデルをトレーニングするために展開する。
本手法は,大規模画像品質評価データベース上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-02T05:06:51Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。