Fugu-MT 論文翻訳(概要): Vision Language Modeling of Content, Distortion and Appearance for Image Quality Assessment

論文の概要: Vision Language Modeling of Content, Distortion and Appearance for Image Quality Assessment

arxiv url: http://arxiv.org/abs/2406.09858v2
Date: Fri, 21 Jun 2024 04:45:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 18:57:27.935991
Title: Vision Language Modeling of Content, Distortion and Appearance for Image Quality Assessment
Title（参考訳）: 画像品質評価のためのコンテンツ・歪み・外観の視覚言語モデリング
Authors: Fei Zhou, Zhicong Huang, Tianhao Gu, Guoping Qiu,
Abstract要約: 画像品質評価(IQA)の開発には品質評価属性に関する高レベル知識の蒸留が不可欠である自己監督・視線監督画像QUality Evaluator (SLIQUE) と呼ばれる新しいブラインドIQA(BIQA)モデルを提案する。 SLIQUEは、画像意味内容、歪み特性およびIQAの外観特性に関する高度な知識を得るための、視覚言語と視覚コントラスト表現学習フレームワークである。
参考スコア（独自算出の注目度）: 20.851102845794244
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The visual quality of an image is confounded by a number of intertwined factors including its semantic content, distortion characteristics and appearance properties such as brightness, contrast, sharpness, and colourfulness. Distilling high level knowledge about all these quality bearing attributes is crucial for developing objective Image Quality Assessment (IQA).While existing solutions have modeled some of these aspects, a comprehensive solution that involves all these important quality related attributes has not yet been developed. In this paper, we present a new blind IQA (BIQA) model termed Self-supervision and Vision-Language supervision Image QUality Evaluator (SLIQUE) that features a joint vision-language and visual contrastive representation learning framework for acquiring high level knowledge about the images semantic contents, distortion characteristics and appearance properties for IQA. For training SLIQUE, we have developed a systematic approach to constructing a first of its kind large image database annotated with all three categories of quality relevant texts. The Text Annotated Distortion, Appearance and Content (TADAC) database has over 1.6 million images annotated with textual descriptions of their semantic contents, distortion characteristics and appearance properties. The method for constructing TADAC and the database itself will be particularly useful for exploiting vision-language modeling for advanced IQA applications. Extensive experimental results show that SLIQUE has superior performances over state of the art, demonstrating the soundness of its design principle and the effectiveness of its implementation.
Abstract（参考訳）: 画像の視覚的品質は、その意味的内容、歪み特性、明るさ、コントラスト、鮮明さ、色鮮度などの外観特性を含む多くの中間要素によって構成される。画像品質評価(IQA)の開発には,これらすべての品質評価属性について高いレベルの知識を希釈することが不可欠である。既存のソリューションはこれらの側面のいくつかをモデル化しているが、これらの重要な品質関連属性をすべて含む包括的なソリューションはまだ開発されていない。本稿では、画像意味内容、歪み特性およびIQAの外観特性に関する高レベルな知識を得るための、視覚言語および視覚コントラスト表現学習フレームワークを特徴とする、自己監督・視覚言語監視画像QUality Evaluator(SLIQUE)と呼ばれる新しい盲目IQA(BIQA)モデルを提案する。 SLIQUEをトレーニングするために、我々は、品質関連テキストの3つのカテゴリにアノテートした、最初の大きな画像データベースを構築するための体系的なアプローチを開発した。 Text Annotated Distortion, Outearance and Content (TADAC)データベースは、160万以上の画像に意味的内容、歪み特性、外観特性のテキスト記述を付加している。 TADACとデータベース自体を構築する方法は、高度なIQAアプリケーションのための視覚言語モデリングを利用するのに特に有用である。 SLIQUEは最先端技術よりも優れた性能を示し,設計原理の健全性と実装の有効性を示した。

関連論文リスト

Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2025-03-28T17:59:54Z)
AI-generated Image Quality Assessment in Visual Communication [72.11144790293086]
AIGI-VCは、視覚コミュニケーションにおけるAI生成画像の品質評価データベースである。データセットは、14の広告トピックと8つの感情タイプにまたがる2500のイメージで構成されている。粗い人間の嗜好アノテーションときめ細かい嗜好記述を提供し、選好予測、解釈、推論におけるIQAメソッドの能力をベンチマークする。
論文参考訳（メタデータ） (2024-12-20T08:47:07Z)
ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling [32.55352435358949]
属性認識のための文生成に基づく検索定式化を提案する。画像上で認識される各属性に対して、短い文を生成する視覚条件付き確率を測定する。生成的検索が2つの視覚的推論データセットのコントラスト的検索を一貫して上回ることを示す実験を通して実証する。
論文参考訳（メタデータ） (2024-08-07T21:44:29Z)
Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。 Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文参考訳（メタデータ） (2024-07-24T06:42:46Z)
Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文参考訳（メタデータ） (2024-06-24T13:45:31Z)
UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment [23.48816491333345]
画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。既存の手法は、異なる学習目的のために、これらのタスクを独立して扱うのが一般的である。本研究では,2つのタスクの一般的な認識を学習するために,視覚言語による品質と美学の事前学習(UniQA)を提案する。
論文参考訳（メタデータ） (2024-06-03T07:40:10Z)
Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-04-27T02:40:36Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
IQAGPT: Image Quality Assessment with Vision-language and ChatGPT Models [23.99102775778499]
本稿では,画像品質評価システムIQAGPTを紹介する。トレーニングと評価のためのCT-IQAデータセットを構築した。 LLMの能力をよりよく活用するために、アノテートされた品質スコアをプロンプトテンプレートを用いて意味的にリッチなテキスト記述に変換する。
論文参考訳（メタデータ） (2023-12-25T09:13:18Z)
Blind Image Quality Assessment via Vision-Language Correspondence: A Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文参考訳（メタデータ） (2023-03-27T07:58:09Z)
Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文参考訳（メタデータ） (2022-07-25T17:58:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。