論文の概要: UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment
- arxiv url: http://arxiv.org/abs/2406.01069v2
- Date: Mon, 14 Jul 2025 17:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:21.065364
- Title: UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment
- Title(参考訳): UniQA: 画像品質と審美評価のための統合ビジョンランゲージ事前トレーニング
- Authors: Hantao Zhou, Longxiang Tang, Rui Yang, Guanyi Qin, Yan Zhang, Yutao Li, Xiu Li, Runze Hu, Guangtao Zhai,
- Abstract要約: 画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。
本稿では,2つのタスクから有用で一般的な表現を抽出するために,視覚言語による品質と美学の事前学習(UniQA)を提案する。
- 参考スコア(独自算出の注目度): 47.207432606050105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Quality Assessment (IQA) and Image Aesthetic Assessment (IAA) aim to simulate human subjective perception of image visual quality and aesthetic appeal. Despite distinct learning objectives, they have underlying interconnectedness due to consistent human assessment perception. In this paper, we propose Unified vision-language pre-training of Quality and Aesthetics (UniQA}), to extract useful and common representations from two tasks, thereby benefiting them simultaneously. However, the lack of text in the IQA datasets and the textual noise in the IAA datasets pose severe challenges for multimodal pre-training. To address this, we (1) utilize multimodal large language models (MLLMs) to generate high-quality text descriptions; (2) use the generated text for IAA as metadata to purify noisy IAA data. To effectively adapt the pre-trained UniQA to downstream tasks, we further propose a lightweight adapter that utilizes versatile cues to fully exploit the extensive knowledge of the pre-trained model. UniQA demonstrates high competitiveness in various image assessment tasks, including classical IQA and IAA tasks, few-label IQA, and other downstream tasks, showing promise as a foundational assessment model. Codes are available at https://github.com/zht8506/UniQA.
- Abstract(参考訳): 画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。
異なる学習目標にもかかわらず、それらは一貫性のある人間の評価知覚によって相互に結びついている。
本稿では,2つのタスクから有用で共通の表現を抽出し,同時に活用するために,統一視覚言語による品質と美学の事前学習(UniQA)を提案する。
しかし、IQAデータセットにおけるテキストの欠如とIAAデータセットにおけるテキストノイズは、マルチモーダル事前学習に深刻な課題をもたらす。
これを解決するために,(1)マルチモーダル大言語モデル(MLLM)を用いて高品質なテキスト記述を生成し,(2)IAAの生成されたテキストをメタデータとして使用してノイズの多いIAAデータを浄化する。
事前学習したUniQAを下流タスクに効果的に適応させるために,多目的キューを利用して事前学習したモデルの広範な知識をフル活用する軽量アダプタを提案する。
UniQAは、従来のIQAタスクやIAAタスク、少数のIQAタスク、その他の下流タスクなど、様々な画像アセスメントタスクにおいて高い競争力を示し、基礎的なアセスメントモデルとして約束を示す。
コードはhttps://github.com/zht8506/UniQA.comで入手できる。
関連論文リスト
- TRIQA: Image Quality Assessment by Contrastive Pretraining on Ordered Distortion Triplets [31.2422359004089]
No-Reference (NR) IQA は参照画像がないため、特に困難である。
本稿では,限られた数の参照コンテンツ画像を用いて,カスタムデータセットを構築する新しい手法を提案する。
対照的な三重項学習を用いて品質認識モデルを訓練し、より少ないサンプルで効率的なトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-07-16T23:43:12Z) - Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。
Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。
実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-12T09:39:33Z) - Next Token Is Enough: Realistic Image Quality and Aesthetic Scoring with Multimodal Large Language Model [19.2881640541533]
大言語モデル(MLLM)は、画像品質評価(IQA)と画像審美評価(IAA)に大きな可能性を示している。
本稿では、RealQA(RealQA)と呼ばれる新しいデータセットについて紹介する。
これらの属性は、低レベル(例えば、画像の明瞭度)、中レベル(例えば、主観的完全性)、高レベル(例えば、構成)の3つのレベルにまたがる。
驚くべきことに、2つの重要な桁だけを予測することで、次のトークンパラダイムはSOTAのパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-03-08T09:49:10Z) - AI-generated Image Quality Assessment in Visual Communication [72.11144790293086]
AIGI-VCは、視覚コミュニケーションにおけるAI生成画像の品質評価データベースである。
データセットは、14の広告トピックと8つの感情タイプにまたがる2500のイメージで構成されている。
粗い人間の嗜好アノテーションときめ細かい嗜好記述を提供し、選好予測、解釈、推論におけるIQAメソッドの能力をベンチマークする。
論文 参考訳(メタデータ) (2024-12-20T08:47:07Z) - Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。
具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。
我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文 参考訳(メタデータ) (2024-06-24T13:45:31Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Descriptive Image Quality Assessment in the Wild [25.503311093471076]
VLMに基づく画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現に合わせることを目指している。
野生における画像品質評価(DepictQA-Wild)について紹介する。
本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。
論文 参考訳(メタデータ) (2024-05-29T07:49:15Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Image Captioning for Effective Use of Language Models in Knowledge-Based
Visual Question Answering [17.51860125438028]
本稿では,画像と事前学習言語モデルの自動キャプションに基づく,単文のみの列車と推論手法を提案する。
外部知識 (OK-VQA) を必要とする視覚的質問応答タスクの結果, テキストのみのモデルは, パラメータ数に匹敵する事前学習されたマルチモーダル(画像-テキスト)モデルよりも優れていた。
論文 参考訳(メタデータ) (2021-09-15T14:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。