論文の概要: Exploring CLIP for Assessing the Look and Feel of Images
- arxiv url: http://arxiv.org/abs/2207.12396v1
- Date: Mon, 25 Jul 2022 17:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 15:07:06.642081
- Title: Exploring CLIP for Assessing the Look and Feel of Images
- Title(参考訳): 画像のルックアンドフィールを評価するCLIPの探索
- Authors: Jianyi Wang, Kelvin C.K. Chan, Chen Change Loy
- Abstract要約: ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
- 参考スコア(独自算出の注目度): 87.97623543523858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Measuring the perception of visual content is a long-standing problem in
computer vision. Many mathematical models have been developed to evaluate the
look or quality of an image. Despite the effectiveness of such tools in
quantifying degradations such as noise and blurriness levels, such
quantification is loosely coupled with human language. When it comes to more
abstract perception about the feel of visual content, existing methods can only
rely on supervised models that are explicitly trained with labeled data
collected via laborious user study. In this paper, we go beyond the
conventional paradigms by exploring the rich visual language prior encapsulated
in Contrastive Language-Image Pre-training (CLIP) models for assessing both the
quality perception (look) and abstract perception (feel) of images in a
zero-shot manner. In particular, we discuss effective prompt designs and show
an effective prompt pairing strategy to harness the prior. We also provide
extensive experiments on controlled datasets and Image Quality Assessment (IQA)
benchmarks. Our results show that CLIP captures meaningful priors that
generalize well to different perceptual assessments. Code will be avaliable at
https://github.com/IceClear/CLIP-IQA.
- Abstract(参考訳): 視覚コンテンツの知覚を測定することは、コンピュータビジョンにおける長年の問題である。
画像の外観や品質を評価するために多くの数学的モデルが開発されている。
このようなツールがノイズやぼかしレベルなどの劣化の定量化に有効であるにもかかわらず、そのような定量化は人間の言語と疎結合である。
視覚的コンテンツの感覚に関するより抽象的な認識に関しては、既存の手法は厳格なユーザー研究を通じて収集されたラベル付きデータで明示的に訓練された教師付きモデルにのみ依存する。
本稿では,画像の品質知覚(ルック)と抽象知覚(フェル)の両方をゼロショットで評価するために,コントラスト言語・イメージ事前学習(clip)モデルにカプセル化されたリッチビジュアル言語を探索することで,従来のパラダイムを超越する。
特に,実効的なプロンプト設計を議論し,前者を活用する効果的なプロンプトペアリング戦略を示す。
また、制御されたデータセットと画像品質評価(IQA)ベンチマークについて広範な実験を行った。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
コードはhttps://github.com/IceClear/CLIP-IQAで無効になる。
関連論文リスト
- Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。
具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。
我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文 参考訳(メタデータ) (2024-06-24T13:45:31Z) - Assessing Image Quality Using a Simple Generative Representation [34.173947968362675]
VAE-QAは、フル参照の存在下で画像品質を予測するためのシンプルで効率的な方法である。
提案手法を4つの標準ベンチマークで評価した結果,データセット間の一般化が著しく向上していることが判明した。
論文 参考訳(メタデータ) (2024-04-28T13:18:47Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition [83.93422034664184]
未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。
既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。
画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T08:02:23Z) - Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-08-13T10:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。