Fugu-MT 論文翻訳(概要): Exploring CLIP for Assessing the Look and Feel of Images

論文の概要: Exploring CLIP for Assessing the Look and Feel of Images

arxiv url: http://arxiv.org/abs/2207.12396v1
Date: Mon, 25 Jul 2022 17:58:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-26 15:07:06.642081
Title: Exploring CLIP for Assessing the Look and Feel of Images
Title（参考訳）: 画像のルックアンドフィールを評価するCLIPの探索
Authors: Jianyi Wang, Kelvin C.K. Chan, Chen Change Loy
Abstract要約: ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
参考スコア（独自算出の注目度）: 87.97623543523858
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Measuring the perception of visual content is a long-standing problem in computer vision. Many mathematical models have been developed to evaluate the look or quality of an image. Despite the effectiveness of such tools in quantifying degradations such as noise and blurriness levels, such quantification is loosely coupled with human language. When it comes to more abstract perception about the feel of visual content, existing methods can only rely on supervised models that are explicitly trained with labeled data collected via laborious user study. In this paper, we go beyond the conventional paradigms by exploring the rich visual language prior encapsulated in Contrastive Language-Image Pre-training (CLIP) models for assessing both the quality perception (look) and abstract perception (feel) of images in a zero-shot manner. In particular, we discuss effective prompt designs and show an effective prompt pairing strategy to harness the prior. We also provide extensive experiments on controlled datasets and Image Quality Assessment (IQA) benchmarks. Our results show that CLIP captures meaningful priors that generalize well to different perceptual assessments. Code will be avaliable at https://github.com/IceClear/CLIP-IQA.
Abstract（参考訳）: 視覚コンテンツの知覚を測定することは、コンピュータビジョンにおける長年の問題である。画像の外観や品質を評価するために多くの数学的モデルが開発されている。このようなツールがノイズやぼかしレベルなどの劣化の定量化に有効であるにもかかわらず、そのような定量化は人間の言語と疎結合である。視覚的コンテンツの感覚に関するより抽象的な認識に関しては、既存の手法は厳格なユーザー研究を通じて収集されたラベル付きデータで明示的に訓練された教師付きモデルにのみ依存する。本稿では,画像の品質知覚(ルック)と抽象知覚(フェル)の両方をゼロショットで評価するために,コントラスト言語・イメージ事前学習(clip)モデルにカプセル化されたリッチビジュアル言語を探索することで,従来のパラダイムを超越する。特に,実効的なプロンプト設計を議論し,前者を活用する効果的なプロンプトペアリング戦略を示す。また、制御されたデータセットと画像品質評価(IQA)ベンチマークについて広範な実験を行った。以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。コードはhttps://github.com/IceClear/CLIP-IQAで無効になる。

関連論文リスト

Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2025-03-28T17:59:54Z)
Don't Judge Before You CLIP: A Unified Approach for Perceptual Tasks [9.43938492952392]
本稿では,CLIPを先行として活用する複数の知覚タスクを解決するための統合フレームワークを提案する。私たちのアプローチは、CLIPが人間の判断とよく相関していることを示す最近の認知的知見に基づいている。提案手法は, (i) 画像記憶可能性予測, (ii) 非参照画像品質評価, (iii) 視覚的感情分析の3つの課題に対して評価する。
論文参考訳（メタデータ） (2025-03-17T15:15:31Z)
Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T02:36:48Z)
CLIP-DQA: Blindly Evaluating Dehazed Images from Global and Local Perspectives Using CLIP [19.80268944768578]
Blind dehazed Image Quality Assessment (BDQA) は、参照情報なしでデハズド画像の視覚的品質を正確に予測することを目的としている。本稿では,BDQAタスクに対して,大規模画像テキストペア上で事前学習したコントラスト言語画像事前学習(CLIP)を適用することを提案する。提案手法はCLIP-DQAと呼ばれ,既存のBDQA手法よりも高精度な品質予測を実現する。
論文参考訳（メタデータ） (2025-02-03T14:12:25Z)
Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文参考訳（メタデータ） (2024-06-24T13:45:31Z)
Assessing Image Quality Using a Simple Generative Representation [34.173947968362675]
VAE-QAは、フル参照の存在下で画像品質を予測するためのシンプルで効率的な方法である。提案手法を4つの標準ベンチマークで評価した結果,データセット間の一般化が著しく向上していることが判明した。
論文参考訳（メタデータ） (2024-04-28T13:18:47Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Heuristic Vision Pre-Training with Self-Supervised and Supervised Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-10-11T14:06:04Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文参考訳（メタデータ） (2022-04-20T04:47:01Z)
Unpaired Image Captioning by Image-level Weakly-Supervised Visual Concept Recognition [83.93422034664184]
未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
論文参考訳（メタデータ） (2022-03-07T08:02:23Z)
Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文参考訳（メタデータ） (2021-08-13T10:43:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。