論文の概要: ML-CLIPSim: Multi-Layer CLIP Similarity for Machine-Oriented Image Quality
- arxiv url: http://arxiv.org/abs/2605.09479v1
- Date: Sun, 10 May 2026 11:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.270437
- Title: ML-CLIPSim: Multi-Layer CLIP Similarity for Machine-Oriented Image Quality
- Title(参考訳): ML-CLIPSim: マシン指向の画像品質に対するマルチレイヤCLIP類似性
- Authors: Feng Ding, Haisheng Fu, Jie Liang, Qihan Xu, Siyu Zhu, Jingning Han,
- Abstract要約: 我々は、機械指向品質を潜在機械ユーティリティとして定式化し、ペアワイズ予測整合性比較により近似する。
凍結したCLIPビジュアルエンコーダ上に構築された差別化可能な品質指標であるML-CLIPSimを提案する。
- 参考スコア(独自算出の注目度): 13.87968279236735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study full-reference image quality assessment from a machine-centric perspective, where images are evaluated by how well they preserve information for downstream models. We formulate machine-oriented quality as a latent machine utility and approximate it through pairwise predictive-consistency comparisons. To this end, we construct PCMP, a dataset of PSNR-matched distortion pairs labeled by consistency votes from multiple pretrained models. We further propose ML-CLIPSim, a differentiable quality metric built on a frozen CLIP visual encoder, which aggregates intermediate patch-token similarities and global image embeddings. Experiments on machine-preference benchmarks, human-IQA datasets, and learned image compression show that ML-CLIPSim better aligns with machine-oriented preferences than conventional fidelity and perceptual metrics, while remaining competitive for human quality prediction. Used as a compression distortion term, it improves rate--task trade-offs across multiple downstream tasks.
- Abstract(参考訳): 本稿では,下流モデルにおける情報保存の精度から,画像の評価を行うマシン中心の視点から,画像品質のフル参照評価について検討する。
我々は、機械指向品質を潜在機械ユーティリティとして定式化し、ペアワイズ予測整合性比較により近似する。
この目的のために,複数の事前学習モデルからの一貫性投票によってラベル付けされたPSNR整合歪み対のデータセットであるPCMPを構築した。
さらに,フリーズされたCLIPビジュアルエンコーダ上に構築された,ML-CLIPSimを提案する。
機械学習ベンチマーク、ヒューマンIQAデータセット、学習された画像圧縮の実験は、ML-CLIPSimが従来の忠実度や知覚的指標よりもマシン指向の嗜好と整合し、人間の品質予測に競争力を維持していることを示している。
圧縮歪み項として使用され、複数の下流タスク間のレート-タスクトレードオフを改善する。
関連論文リスト
- Hybrid Image Resolution Quality Metric (HIRQM):A Comprehensive Perceptual Image Quality Assessment Framework [0.0]
本稿では,HIRQM(Hybrid Image Resolution Quality Metric)を提案する。
動的重み付け機構は、輝度や分散といったイメージ特性に基づいてコンポーネントのコントリビューションを適応し、歪みタイプ間の柔軟性を向上させる。
TID2013とLIVデータセット、HIRQMピアソンとスピアマンの相関を0.92と0.90と評価し、従来の指標を上回った。
論文 参考訳(メタデータ) (2025-05-04T06:14:10Z) - Predicting Satisfied User and Machine Ratio for Compressed Images: A Unified Approach [58.71009078356928]
圧縮画像のSUR(Satified User Ratio)とSMR(Satified Machine Ratio)を同時に予測するディープラーニングモデルを構築した。
実験結果から,提案手法は最先端SURおよびSMR予測法より有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-23T11:09:30Z) - Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z) - Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment [49.36799270585947]
No-Reference Point Cloud Quality Assessment (NR-PCQA) は、歪んだ点雲の知覚的品質を、参照なしで自動的に評価することを目的としている。
我々は,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。
提案手法は,最新のPCQA手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:16:07Z) - Perceptual Video Coding for Machines via Satisfied Machine Ratio
Modeling [66.56355316611598]
Satisfied Machine Ratio (SMR) は、圧縮された画像やビデオの知覚的品質を評価するメトリクスである。
SMRは機械の知覚的コーディングを可能にし、機械のためのビデオ符号化を特異性から一般性まで推進する。
論文 参考訳(メタデータ) (2022-11-13T03:16:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。