論文の概要: Beyond Cosine Similarity Magnitude-Aware CLIP for No-Reference Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2511.09948v1
- Date: Fri, 14 Nov 2025 01:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.599131
- Title: Beyond Cosine Similarity Magnitude-Aware CLIP for No-Reference Image Quality Assessment
- Title(参考訳): 非参照画像品質評価のためのコサイン類似性マグニチュード対応CLIP
- Authors: Zhicheng Liao, Dongxu Wu, Zhenshan Shi, Sijie Mai, Hanwei Zhu, Lingyu Zhu, Yuncheng Jiang, Baoliang Chen,
- Abstract要約: 本稿では,コサインの類似性を大局的に認識できる品質クオリティキューに補完する新しい適応融合フレームワークを提案する。
本手法は,タスク固有のトレーニングを伴わずに,標準のCLIPベースのIQAと最先端のベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 25.104682483704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent efforts have repurposed the Contrastive Language-Image Pre-training (CLIP) model for No-Reference Image Quality Assessment (NR-IQA) by measuring the cosine similarity between the image embedding and textual prompts such as "a good photo" or "a bad photo." However, this semantic similarity overlooks a critical yet underexplored cue: the magnitude of the CLIP image features, which we empirically find to exhibit a strong correlation with perceptual quality. In this work, we introduce a novel adaptive fusion framework that complements cosine similarity with a magnitude-aware quality cue. Specifically, we first extract the absolute CLIP image features and apply a Box-Cox transformation to statistically normalize the feature distribution and mitigate semantic sensitivity. The resulting scalar summary serves as a semantically-normalized auxiliary cue that complements cosine-based prompt matching. To integrate both cues effectively, we further design a confidence-guided fusion scheme that adaptively weighs each term according to its relative strength. Extensive experiments on multiple benchmark IQA datasets demonstrate that our method consistently outperforms standard CLIP-based IQA and state-of-the-art baselines, without any task-specific training.
- Abstract(参考訳): 近年、画像埋め込みと「良い写真」や「悪い写真」といったテキストプロンプトのコサイン類似性を測定することで、非参照画像品質評価(NR-IQA)のためのコントラスト言語-画像事前学習(CLIP)モデルの再開発が進められている。
しかし、この意味的類似性は、CLIP画像の特徴の大きさが知覚品質と強い相関関係があることを実証的に見出すという、重要で未解明の手がかりを見落としている。
本研究では,コサインの類似性を大局的に認識するクオリティキューに補完する新しい適応融合フレームワークを提案する。
具体的には、まず絶対的なCLIP画像の特徴を抽出し、Box-Cox変換を適用して特徴分布を統計的に正規化し、意味感受性を緩和する。
結果として生じるスカラーの要約は、コサインベースのプロンプトマッチングを補完する意味論的に正規化された補助キューとして機能する。
両キューを効果的に統合するために,各項を相対強度に応じて適応的に重み付けする信頼誘導融合方式を設計する。
複数のベンチマークIQAデータセットに対する大規模な実験により、我々の手法はタスク固有のトレーニングなしで標準のCLIPベースのIQAと最先端のベースラインを一貫して上回ることを示した。
関連論文リスト
- FoCLIP: A Feature-Space Misalignment Framework for CLIP-Based Image Manipulation and Detection [25.808813569367135]
我々は,CLIPベースの画像品質指標を騙す機能空間の誤調整フレームワークである textbfFoCLIP を提案する。
FoCLIPは3つの重要なコンポーネントを統合して、ばかげた例を構築する。
10の芸術的傑作プロンプトとImageNetサブセットの実験では、最適化されたイメージがCLIPscoreで大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2025-11-10T10:54:35Z) - BPCLIP: A Bottom-up Image Quality Assessment from Distortion to Semantics Based on CLIP [18.25854559825818]
比較言語-画像事前学習(CLIP)に基づくボトムアップ画像品質評価手法を提案する。
具体的には,エンコーダを用いて入力画像からマルチスケール特徴を抽出し,ボトムアップ型マルチスケールクロスアテンションモジュールを導入する。
6つの異なる次元に40の画像品質形容詞を組み込むことで、事前学習したCLIPテキストエンコーダが画像固有の品質の表現を生成することができる。
論文 参考訳(メタデータ) (2025-06-22T09:56:57Z) - Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment [49.36799270585947]
No-Reference Point Cloud Quality Assessment (NR-PCQA) は、歪んだ点雲の知覚的品質を、参照なしで自動的に評価することを目的としている。
我々は,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。
提案手法は,最新のPCQA手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:16:07Z) - Pairwise Comparisons Are All You Need [22.798716660911833]
ブラインド画像品質評価(BIQA)アプローチは、様々な画像に一様に適用される一般的な品質基準に依存しているため、現実のシナリオでは不足することが多い。
本稿では、従来のBIQAの制限を回避すべく設計されたペアワイズ比較フレームワークであるPICNIQを紹介する。
PICNIQは、サイコメトリックスケーリングアルゴリズムを用いることで、対比較をジャストオブジェクタブルディファレンス(JOD)の品質スコアに変換し、画像品質の粒度と解釈可能な指標を提供する。
論文 参考訳(メタデータ) (2024-03-13T23:43:36Z) - Introspective Deep Metric Learning for Image Retrieval [80.29866561553483]
良好な類似性モデルは、より堅牢なトレーニングのために曖昧なイメージをよりよく扱うように注意しながら、意味的な相違を考慮すべきである、と我々は主張する。
本稿では,画像の意味的特徴とあいまいさを記述した,意味的埋め込みだけでなく,付随する不確実性埋め込みを用いて画像を表現することを提案する。
提案したIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能向上を実現し,広く使用されているCUB-200-2011,Cars196,Stanford Online Productsデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2022-05-09T17:51:44Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - No-Reference Image Quality Assessment by Hallucinating Pristine Features [24.35220427707458]
本稿では,特徴レベルの擬似参照(PR)幻覚を用いた非参照画像品質評価(IQA)手法を提案する。
提案手法の有効性を4つのIQAデータベースで実証した。
論文 参考訳(メタデータ) (2021-08-09T16:48:34Z) - Self-Calibration Supported Robust Projective Structure-from-Motion [80.15392629310507]
本稿では,自己校正制約によってマッチングプロセスが支持される統合されたStructure-from-Motion (SfM)法を提案する。
これらの制約を利用して,ロバストなマルチビューマッチングと正確なカメラキャリブレーションを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-07-04T08:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。