Fugu-MT 論文翻訳(概要): Quality-Aware Image-Text Alignment for Real-World Image Quality Assessment

論文の概要: Quality-Aware Image-Text Alignment for Real-World Image Quality Assessment

arxiv url: http://arxiv.org/abs/2403.11176v1
Date: Sun, 17 Mar 2024 11:32:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 18:06:05.421724
Title: Quality-Aware Image-Text Alignment for Real-World Image Quality Assessment
Title（参考訳）: 実世界の画質評価のための品質対応画像テキストアライメント
Authors: Lorenzo Agnolucci, Leonardo Galteri, Marco Bertini,
Abstract要約: No-Reference Image Quality Assessment (NR-IQA) は、高画質の参照画像が利用できない場合に、人間の知覚に合わせて画像品質を測定する方法に焦点を当てている。最先端のNR-IQAアプローチの大部分における注釈付き平均オピニオンスコア(MOS)への依存は、そのスケーラビリティと実際のシナリオへの適用性を制限している。ラベル付きMOSを必要としないCLIPベースの自己教師型意見認識手法であるQuariCLIPを提案する。
参考スコア（独自算出の注目度）: 8.431867616409958
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: No-Reference Image Quality Assessment (NR-IQA) focuses on designing methods to measure image quality in alignment with human perception when a high-quality reference image is unavailable. The reliance on annotated Mean Opinion Scores (MOS) in the majority of state-of-the-art NR-IQA approaches limits their scalability and broader applicability to real-world scenarios. To overcome this limitation, we propose QualiCLIP (Quality-aware CLIP), a CLIP-based self-supervised opinion-unaware method that does not require labeled MOS. In particular, we introduce a quality-aware image-text alignment strategy to make CLIP generate representations that correlate with the inherent quality of the images. Starting from pristine images, we synthetically degrade them with increasing levels of intensity. Then, we train CLIP to rank these degraded images based on their similarity to quality-related antonym text prompts, while guaranteeing consistent representations for images with comparable quality. Our method achieves state-of-the-art performance on several datasets with authentic distortions. Moreover, despite not requiring MOS, QualiCLIP outperforms supervised methods when their training dataset differs from the testing one, thus proving to be more suitable for real-world scenarios. Furthermore, our approach demonstrates greater robustness and improved explainability than competing methods. The code and the model are publicly available at https://github.com/miccunifi/QualiCLIP.
Abstract（参考訳）: No-Reference Image Quality Assessment (NR-IQA) は、高画質の参照画像が利用できない場合に、人間の知覚に合わせて画像品質を測定する方法に焦点を当てている。最先端のNR-IQAアプローチの大部分における注釈付き平均オピニオンスコア(MOS)への依存は、そのスケーラビリティと実際のシナリオへの適用性を制限している。この制限を克服するために、ラベル付きMOSを必要としないCLIPベースの自己教師型意見認識手法であるQuariCLIP(Quality-aware CLIP)を提案する。特に、CLIPが画像固有の品質と相関する表現を生成するために、品質に配慮した画像テキストアライメント戦略を導入する。プリスタン画像から始めると、高強度で合成分解する。次に、CLIPに、品質に関するアントロニムテキストプロンプトと類似性に基づいて、これらの劣化した画像をランク付けするように訓練し、同等の品質のイメージに対して一貫した表現を保証します。提案手法は, 高精度な歪みのある複数のデータセットに対して, 最先端の性能を実現する。さらに、MOSを必要としないにもかかわらず、QualliCLIPはトレーニングデータセットがテストデータセットと異なる場合、教師付きメソッドよりも優れており、現実のシナリオに適していることが証明されている。さらに,本手法は,競合手法よりも堅牢性が高く,説明性も向上している。コードとモデルはhttps://github.com/miccunifi/QualiCLIPで公開されている。

関連論文リスト

Enhancing Reward Models for High-quality Image Generation: Beyond Text-Image Alignment [63.823383517957986]
テキスト画像アライメントの目的を達成し,達成する新しい評価スコアであるICT(Image-Contained-Text)を提案する。さらに、画像モダリティのみを用いてHPスコアモデル(High-Preference)をトレーニングし、画像美学とディテール品質を向上させる。
論文参考訳（メタデータ） (2025-07-25T07:01:50Z)
BPCLIP: A Bottom-up Image Quality Assessment from Distortion to Semantics Based on CLIP [18.25854559825818]
比較言語-画像事前学習(CLIP)に基づくボトムアップ画像品質評価手法を提案する。具体的には,エンコーダを用いて入力画像からマルチスケール特徴を抽出し,ボトムアップ型マルチスケールクロスアテンションモジュールを導入する。 6つの異なる次元に40の画像品質形容詞を組み込むことで、事前学習したCLIPテキストエンコーダが画像固有の品質の表現を生成することができる。
論文参考訳（メタデータ） (2025-06-22T09:56:57Z)
CLIP-DQA: Blindly Evaluating Dehazed Images from Global and Local Perspectives Using CLIP [19.80268944768578]
Blind dehazed Image Quality Assessment (BDQA) は、参照情報なしでデハズド画像の視覚的品質を正確に予測することを目的としている。本稿では,BDQAタスクに対して,大規模画像テキストペア上で事前学習したコントラスト言語画像事前学習(CLIP)を適用することを提案する。提案手法はCLIP-DQAと呼ばれ,既存のBDQA手法よりも高精度な品質予測を実現する。
論文参考訳（メタデータ） (2025-02-03T14:12:25Z)
Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文参考訳（メタデータ） (2024-12-09T18:51:05Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
ExIQA: Explainable Image Quality Assessment Using Distortion Attributes [0.3683202928838613]
本稿では属性学習に基づく歪み同定のための説明可能なアプローチを提案する。効率的なトレーニングのために,10万の画像からなるデータセットを生成する。提案手法はPLCCとSRCCの両方で複数のデータセットにまたがるSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2024-09-10T20:28:14Z)
Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文参考訳（メタデータ） (2024-06-24T13:45:31Z)
Descriptive Image Quality Assessment in the Wild [25.503311093471076]
VLMに基づく画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現に合わせることを目指している。野生における画像品質評価(DepictQA-Wild)について紹介する。本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。
論文参考訳（メタデータ） (2024-05-29T07:49:15Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
QGFace: Quality-Guided Joint Training For Mixed-Quality Face Recognition [2.8519768339207356]
混合品質顔認証のための新しい品質誘導型共同訓練手法を提案する。品質分割に基づいて、分類に基づく手法が本社データ学習に用いられている。識別情報を欠いたLQ画像に対しては,自己教師付き画像イメージコントラスト学習を用いて学習する。
論文参考訳（メタデータ） (2023-12-29T06:56:22Z)
Re-IQA: Unsupervised Learning for Image Quality Assessment in the Wild [38.197794061203055]
教師なし環境で高レベルのコンテンツと低レベルの画像品質特徴を学習するために、2つの異なるエンコーダを訓練するためのMixture of Expertsアプローチを提案する。本稿では,Re-IQAフレームワークから得られた高次・低次画像表現を,線形回帰モデルをトレーニングするために展開する。本手法は,大規模画像品質評価データベース上での最先端性能を実現する。
論文参考訳（メタデータ） (2023-04-02T05:06:51Z)
Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文参考訳（メタデータ） (2022-07-25T17:58:16Z)
Conformer and Blind Noisy Students for Improved Image Quality Assessment [80.57006406834466]
知覚品質評価(IQA)のための学習ベースアプローチは、通常、知覚品質を正確に測定するために歪んだ画像と参照画像の両方を必要とする。本研究では,変換器を用いた全参照IQAモデルの性能について検討する。また,全教師モデルから盲人学生モデルへの半教師付き知識蒸留に基づくIQAの手法を提案する。
論文参考訳（メタデータ） (2022-04-27T10:21:08Z)
Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文参考訳（メタデータ） (2021-10-25T21:01:00Z)
Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment [157.1292674649519]
劣化参照IQA(DR-IQA)という実用的な解を提案する。 DR-IQAはIRモデルの入力、劣化したイメージを参照として利用する。私たちの結果は、フル参照設定のパフォーマンスに近いものもあります。
論文参考訳（メタデータ） (2021-08-18T02:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。