論文の概要: ATTIQA: Generalizable Image Quality Feature Extractor using Attribute-aware Pretraining
- arxiv url: http://arxiv.org/abs/2406.01020v2
- Date: Sat, 05 Oct 2024 05:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:38:03.381962
- Title: ATTIQA: Generalizable Image Quality Feature Extractor using Attribute-aware Pretraining
- Title(参考訳): ATTIQA:Attribute-aware Pretraining を用いた画像品質指標
- Authors: Daekyu Kwon, Dongyoung Kim, Sehwan Ki, Younghyun Jo, Hyong-Euk Lee, Seon Joo Kim,
- Abstract要約: no-reference Image Quality Assessment (NR-IQA)では、限られたデータセットサイズでの課題は、堅牢で一般化可能なモデルの開発を妨げている。
本稿では,高品質な知識を選択的に抽出し,IQAの一般化可能な表現を構築する新しい事前学習フレームワークを提案する。
提案手法は,複数のIQAデータセット上での最先端性能を実現し,優れた一般化能力を示す。
- 参考スコア(独自算出の注目度): 25.680035174334886
- License:
- Abstract: In no-reference image quality assessment (NR-IQA), the challenge of limited dataset sizes hampers the development of robust and generalizable models. Conventional methods address this issue by utilizing large datasets to extract rich representations for IQA. Also, some approaches propose vision language models (VLM) based IQA, but the domain gap between generic VLM and IQA constrains their scalability. In this work, we propose a novel pretraining framework that constructs a generalizable representation for IQA by selectively extracting quality-related knowledge from VLM and leveraging the scalability of large datasets. Specifically, we select optimal text prompts for five representative image quality attributes and use VLM to generate pseudo-labels. Numerous attribute-aware pseudo-labels can be generated with large image datasets, allowing our IQA model to learn rich representations about image quality. Our approach achieves state-of-the-art performance on multiple IQA datasets and exhibits remarkable generalization capabilities. Leveraging these strengths, we propose several applications, such as evaluating image generation models and training image enhancement models, demonstrating our model's real-world applicability.
- Abstract(参考訳): no-reference Image Quality Assessment (NR-IQA)では、限られたデータセットサイズでの課題は、堅牢で一般化可能なモデルの開発を妨げている。
従来の方法では、大きなデータセットを使用してIQAのリッチな表現を抽出することでこの問題に対処する。
また、視覚言語モデル(VLM)をベースとしたIQAを提案する手法もあるが、汎用VLMとIQAのドメインギャップはスケーラビリティを制約している。
本稿では,VLM から品質関連知識を選択的に抽出し,大規模データセットのスケーラビリティを活用することにより,IQA の一般化可能な表現を構築する新しい事前学習フレームワークを提案する。
具体的には、5つの代表的な画像品質属性に対して最適なテキストプロンプトを選択し、VLMを用いて擬似ラベルを生成する。
多数の属性を意識した擬似ラベルを大きな画像データセットで生成し,画像品質に関する豊かな表現をIQAモデルで学習する。
提案手法は,複数のIQAデータセット上での最先端性能を実現し,優れた一般化能力を示す。
これらの長所を生かして、画像生成モデルの評価や画像強調モデルの訓練、実世界の適用可能性の実証など、いくつかの応用を提案する。
関連論文リスト
- ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - GenzIQA: Generalized Image Quality Assessment using Prompt-Guided Latent Diffusion Models [7.291687946822539]
最先端のNR-IQA手法の大きな欠点は、様々なIQA設定にまたがる一般化能力に制限があることである。
近年のテキスト・ツー・イメージ生成モデルでは,テキスト概念に関する細部から意味のある視覚概念が生成されている。
本研究では、学習可能な品質対応テキストプロンプトと画像のアライメントの程度を理解することにより、一般化されたIQAに対してそのような拡散モデルのデノベーションプロセスを利用する。
論文 参考訳(メタデータ) (2024-06-07T05:46:39Z) - Descriptive Image Quality Assessment in the Wild [25.503311093471076]
VLMに基づく画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現に合わせることを目指している。
野生における画像品質評価(DepictQA-Wild)について紹介する。
本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。
論文 参考訳(メタデータ) (2024-05-29T07:49:15Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models [28.194638379354252]
本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、マルチモーダルな大規模言語モデルを利用することで、詳細な言語ベースの人間のような画像品質の評価を可能にする。
これらの結果はマルチモーダルIQA法の研究の可能性を示している。
論文 参考訳(メタデータ) (2023-12-14T14:10:02Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z) - Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA
Tasks? A: Self-Train on Unlabeled Images! [103.09776737512077]
SelTDA(Self-Taught Data Augmentation)は、小規模なVQAデータセット上で大きな視覚言語モデルを微調整するための戦略である。
画像上に直接条件付の疑似ラベルを生成することで、未ラベル画像の疑似ラベル作成を可能にする。
我々は, 自己学習によるデータ拡張が, 対向的に検索された質問に対して堅牢性を高めることを示す一連の実験について述べる。
論文 参考訳(メタデータ) (2023-06-06T18:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。