論文の概要: Exploring CLIP for Assessing the Look and Feel of Images
- arxiv url: http://arxiv.org/abs/2207.12396v1
- Date: Mon, 25 Jul 2022 17:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 15:07:06.642081
- Title: Exploring CLIP for Assessing the Look and Feel of Images
- Title(参考訳): 画像のルックアンドフィールを評価するCLIPの探索
- Authors: Jianyi Wang, Kelvin C.K. Chan, Chen Change Loy
- Abstract要約: ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
- 参考スコア(独自算出の注目度): 87.97623543523858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Measuring the perception of visual content is a long-standing problem in
computer vision. Many mathematical models have been developed to evaluate the
look or quality of an image. Despite the effectiveness of such tools in
quantifying degradations such as noise and blurriness levels, such
quantification is loosely coupled with human language. When it comes to more
abstract perception about the feel of visual content, existing methods can only
rely on supervised models that are explicitly trained with labeled data
collected via laborious user study. In this paper, we go beyond the
conventional paradigms by exploring the rich visual language prior encapsulated
in Contrastive Language-Image Pre-training (CLIP) models for assessing both the
quality perception (look) and abstract perception (feel) of images in a
zero-shot manner. In particular, we discuss effective prompt designs and show
an effective prompt pairing strategy to harness the prior. We also provide
extensive experiments on controlled datasets and Image Quality Assessment (IQA)
benchmarks. Our results show that CLIP captures meaningful priors that
generalize well to different perceptual assessments. Code will be avaliable at
https://github.com/IceClear/CLIP-IQA.
- Abstract(参考訳): 視覚コンテンツの知覚を測定することは、コンピュータビジョンにおける長年の問題である。
画像の外観や品質を評価するために多くの数学的モデルが開発されている。
このようなツールがノイズやぼかしレベルなどの劣化の定量化に有効であるにもかかわらず、そのような定量化は人間の言語と疎結合である。
視覚的コンテンツの感覚に関するより抽象的な認識に関しては、既存の手法は厳格なユーザー研究を通じて収集されたラベル付きデータで明示的に訓練された教師付きモデルにのみ依存する。
本稿では,画像の品質知覚(ルック)と抽象知覚(フェル)の両方をゼロショットで評価するために,コントラスト言語・イメージ事前学習(clip)モデルにカプセル化されたリッチビジュアル言語を探索することで,従来のパラダイムを超越する。
特に,実効的なプロンプト設計を議論し,前者を活用する効果的なプロンプトペアリング戦略を示す。
また、制御されたデータセットと画像品質評価(IQA)ベンチマークについて広範な実験を行った。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
コードはhttps://github.com/IceClear/CLIP-IQAで無効になる。
関連論文リスト
- Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition [83.93422034664184]
未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。
既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。
画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T08:02:23Z) - Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-08-13T10:43:20Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。