論文の概要: Quality-Aware Image-Text Alignment for Opinion-Unaware Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2403.11176v3
- Date: Mon, 10 Mar 2025 15:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:40:47.059069
- Title: Quality-Aware Image-Text Alignment for Opinion-Unaware Image Quality Assessment
- Title(参考訳): 画像品質評価のための品質対応画像テキストアライメント
- Authors: Lorenzo Agnolucci, Leonardo Galteri, Marco Bertini,
- Abstract要約: No-Reference Image Quality Assessment (NR-IQA) は、高画質の参照画像が利用できない場合に、人間の知覚に合わせて画像品質を測定する方法に焦点を当てている。
最先端のNR-IQAアプローチの多くは意見認識であり、トレーニングには人間のアノテーションが必要である。
人間の意見を必要としないCLIPベースの自己管理型意見認識アプローチであるQuariCLIPを提案する。
- 参考スコア(独自算出の注目度): 8.431867616409958
- License:
- Abstract: No-Reference Image Quality Assessment (NR-IQA) focuses on designing methods to measure image quality in alignment with human perception when a high-quality reference image is unavailable. Most state-of-the-art NR-IQA approaches are opinion-aware, i.e. they require human annotations for training. This dependency limits their scalability and broad applicability. To overcome this limitation, we propose QualiCLIP (Quality-aware CLIP), a CLIP-based self-supervised opinion-unaware approach that does not require human opinions. In particular, we introduce a quality-aware image-text alignment strategy to make CLIP generate quality-aware image representations. Starting from pristine images, we synthetically degrade them with increasing levels of intensity. Then, we train CLIP to rank these degraded images based on their similarity to quality-related antonym text prompts. At the same time, we force CLIP to generate consistent representations for images with similar content and the same level of degradation. Our experiments show that the proposed method improves over existing opinion-unaware approaches across multiple datasets with diverse distortion types. Moreover, despite not requiring human annotations, QualiCLIP achieves excellent performance against supervised opinion-aware methods in cross-dataset experiments, thus demonstrating remarkable generalization capabilities. The code and the model are publicly available at https://github.com/miccunifi/QualiCLIP.
- Abstract(参考訳): No-Reference Image Quality Assessment (NR-IQA) は、高画質の参照画像が利用できない場合に、人間の知覚に合わせて画像品質を測定する方法に焦点を当てている。
最先端のNR-IQAアプローチの多くは意見認識であり、トレーニングには人間のアノテーションが必要である。
この依存関係はスケーラビリティと幅広い適用性を制限する。
この制限を克服するために,CLIPをベースとした自己管理型意見認識型アプローチであるQuariCLIP(Quality-aware CLIP)を提案する。
特に,CLIPが品質認識画像表現を生成するための品質認識画像テキストアライメント戦略を導入する。
プリスタン画像から始めると、高強度で合成分解する。
次に、CLIPに、品質関連アントロニムテキストプロンプトとの類似性に基づいて、これらの劣化した画像をランク付けするように訓練する。
同時に、CLIPは、類似したコンテンツと同等の劣化レベルを持つ画像に対して一貫した表現を生成するように強制する。
提案手法は,様々な歪み型を持つ複数のデータセットにまたがる既存の意見認識アプローチよりも優れていることを示す。
さらに、人間のアノテーションを必要としないにもかかわらず、QuariCLIPは、クロスデータセット実験において教師付き意見認識手法に対して優れた性能を達成し、優れた一般化能力を示す。
コードとモデルはhttps://github.com/miccunifi/QualiCLIPで公開されている。
関連論文リスト
- CLIP-DQA: Blindly Evaluating Dehazed Images from Global and Local Perspectives Using CLIP [19.80268944768578]
Blind dehazed Image Quality Assessment (BDQA) は、参照情報なしでデハズド画像の視覚的品質を正確に予測することを目的としている。
本稿では,BDQAタスクに対して,大規模画像テキストペア上で事前学習したコントラスト言語画像事前学習(CLIP)を適用することを提案する。
提案手法はCLIP-DQAと呼ばれ,既存のBDQA手法よりも高精度な品質予測を実現する。
論文 参考訳(メタデータ) (2025-02-03T14:12:25Z) - Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。
具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。
我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文 参考訳(メタデータ) (2024-06-24T13:45:31Z) - QGFace: Quality-Guided Joint Training For Mixed-Quality Face Recognition [2.8519768339207356]
混合品質顔認証のための新しい品質誘導型共同訓練手法を提案する。
品質分割に基づいて、分類に基づく手法が本社データ学習に用いられている。
識別情報を欠いたLQ画像に対しては,自己教師付き画像イメージコントラスト学習を用いて学習する。
論文 参考訳(メタデータ) (2023-12-29T06:56:22Z) - Re-IQA: Unsupervised Learning for Image Quality Assessment in the Wild [38.197794061203055]
教師なし環境で高レベルのコンテンツと低レベルの画像品質特徴を学習するために、2つの異なるエンコーダを訓練するためのMixture of Expertsアプローチを提案する。
本稿では,Re-IQAフレームワークから得られた高次・低次画像表現を,線形回帰モデルをトレーニングするために展開する。
本手法は,大規模画像品質評価データベース上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-02T05:06:51Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - Learning Conditional Knowledge Distillation for Degraded-Reference Image
Quality Assessment [157.1292674649519]
劣化参照IQA(DR-IQA)という実用的な解を提案する。
DR-IQAはIRモデルの入力、劣化したイメージを参照として利用する。
私たちの結果は、フル参照設定のパフォーマンスに近いものもあります。
論文 参考訳(メタデータ) (2021-08-18T02:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。