論文の概要: Parameter-Efficient Adaptation of mPLUG-Owl2 via Pixel-Level Visual Prompts for NR-IQA
- arxiv url: http://arxiv.org/abs/2509.03494v2
- Date: Sat, 06 Sep 2025 16:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 12:02:46.920585
- Title: Parameter-Efficient Adaptation of mPLUG-Owl2 via Pixel-Level Visual Prompts for NR-IQA
- Title(参考訳): NR-IQAのための画素レベルビジュアルプロンプトによるmPLUG-Owl2のパラメータ適応
- Authors: Yahya Benmahane, Mohammed El Hassouni,
- Abstract要約: 画素空間に最適化された視覚的プロンプトを用いた非参照画像品質評価(NR-IQA)のための新しいパラメータ効率適応法を提案する。
私たちのアプローチでは、基礎となるモデルを完全に凍結しながら、最大で600Kのパラメータのみをトレーニングしています。
KADID-10k、KonIQ-10k、AGIQA-3k上の歪みタイプ(合成、現実、AI生成)による評価は、競合性能を示す。
- 参考スコア(独自算出の注目度): 0.3953304476953445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel parameter-efficient adaptation method for No- Reference Image Quality Assessment (NR-IQA) using visual prompts optimized in pixel-space. Unlike full fine-tuning of Multimodal Large Language Models (MLLMs), our approach trains only 600K parameters at most (< 0.01% of the base model), while keeping the underlying model fully frozen. During inference, these visual prompts are combined with images via addition and processed by mPLUG-Owl2 with the textual query "Rate the technical quality of the image." Evaluations across distortion types (synthetic, realistic, AI-generated) on KADID- 10k, KonIQ-10k, and AGIQA-3k demonstrate competitive performance against full finetuned methods and specialized NR-IQA models, achieving 0.93 SRCC on KADID-10k. To our knowledge, this is the first work to leverage pixel-space visual prompts for NR-IQA, enabling efficient MLLM adaptation for low-level vision tasks. The source code is publicly available at https: // github. com/ yahya-ben/ mplug2-vp-for-nriqa.
- Abstract(参考訳): 本稿では, 画素空間に最適化された視覚的プロンプトを用いた, No- Reference Image Quality Assessment (NR-IQA) のためのパラメータ効率適応手法を提案する。
MLLM(Multimodal Large Language Models)の完全な微調整とは異なり、我々のアプローチは600Kのパラメータしか訓練しない(ベースモデルの0.01%)。
推論中、これらの視覚的プロンプトは追加で画像と結合され、mPLUG-Owl2で処理される。
KADID-10k、KonIQ-10k、AGIQA-3k上の歪みタイプ(合成、現実、AI生成)による評価は、完全な微調整された手法やNR-IQAモデルに対する競合性能を示し、KADID-10k上で0.93SRCCを達成する。
我々の知る限り、これはNR-IQAに対してピクセル空間の視覚的プロンプトを利用する最初の試みであり、低レベルの視覚タスクに対して効率的なMLLM適応を可能にする。
ソースコードはhttps: // github.comで公開されている。
サンプル2-vp-for-nriqa.com/yahya-ben/ mplug2-vp-for-nriqa。
関連論文リスト
- VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank [23.613534906344753]
推論による非参照IQA(NR-IQA)モデルであるVisualQuality-R1を紹介する。
我々は、視覚的品質の本質的に相対的な性質に合わせた学習アルゴリズムである、ランク付けのための強化学習でこれを訓練する。
実験では、VisualQuality-R1は差別的なディープラーニングベースのNR-IQAモデルより一貫して優れている。
論文 参考訳(メタデータ) (2025-05-20T14:56:50Z) - Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization [55.09893295671917]
本稿では,Gdient-Regulated Meta-Prompt IQA Framework (GRMP-IQA)を紹介する。
GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。
5つの標準BIQAデータセットの実験は、限られたデータ設定下での最先端BIQA手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - QuickQual: Lightweight, convenient retinal image quality scoring with
off-the-shelf pretrained models [2.9005223064604078]
画像品質は、従来型およびディープラーニング(DL)ベースの網膜画像解析のアプローチにおいて重要な問題である。
本稿では,1つの既製のImageNet-pretrained Densenet121バックボーンとSVM(Support Vector Machine)を組み合わせたRIQSに対する簡単なアプローチを提案する。
QuickQualは非常によく機能し、EyeQの最先端を新たに設定する。
第2のモデルであるQuickQual Mega Minified Estimator(QuickQual-MEME)を、市販のDensenet121上に10個のパラメータで構成する。
論文 参考訳(メタデータ) (2023-07-25T16:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。