論文の概要: Parameter-Efficient Adaptation of mPLUG-Owl2 via Pixel-Level Visual Prompts for NR-IQA
- arxiv url: http://arxiv.org/abs/2509.03494v2
- Date: Sat, 06 Sep 2025 16:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 12:02:46.920585
- Title: Parameter-Efficient Adaptation of mPLUG-Owl2 via Pixel-Level Visual Prompts for NR-IQA
- Title(参考訳): NR-IQAのための画素レベルビジュアルプロンプトによるmPLUG-Owl2のパラメータ適応
- Authors: Yahya Benmahane, Mohammed El Hassouni,
- Abstract要約: 画素空間に最適化された視覚的プロンプトを用いた非参照画像品質評価(NR-IQA)のための新しいパラメータ効率適応法を提案する。
私たちのアプローチでは、基礎となるモデルを完全に凍結しながら、最大で600Kのパラメータのみをトレーニングしています。
KADID-10k、KonIQ-10k、AGIQA-3k上の歪みタイプ(合成、現実、AI生成)による評価は、競合性能を示す。
- 参考スコア(独自算出の注目度): 0.3953304476953445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel parameter-efficient adaptation method for No- Reference Image Quality Assessment (NR-IQA) using visual prompts optimized in pixel-space. Unlike full fine-tuning of Multimodal Large Language Models (MLLMs), our approach trains only 600K parameters at most (< 0.01% of the base model), while keeping the underlying model fully frozen. During inference, these visual prompts are combined with images via addition and processed by mPLUG-Owl2 with the textual query "Rate the technical quality of the image." Evaluations across distortion types (synthetic, realistic, AI-generated) on KADID- 10k, KonIQ-10k, and AGIQA-3k demonstrate competitive performance against full finetuned methods and specialized NR-IQA models, achieving 0.93 SRCC on KADID-10k. To our knowledge, this is the first work to leverage pixel-space visual prompts for NR-IQA, enabling efficient MLLM adaptation for low-level vision tasks. The source code is publicly available at https: // github. com/ yahya-ben/ mplug2-vp-for-nriqa.
- Abstract(参考訳): 本稿では, 画素空間に最適化された視覚的プロンプトを用いた, No- Reference Image Quality Assessment (NR-IQA) のためのパラメータ効率適応手法を提案する。
MLLM(Multimodal Large Language Models)の完全な微調整とは異なり、我々のアプローチは600Kのパラメータしか訓練しない(ベースモデルの0.01%)。
推論中、これらの視覚的プロンプトは追加で画像と結合され、mPLUG-Owl2で処理される。
KADID-10k、KonIQ-10k、AGIQA-3k上の歪みタイプ(合成、現実、AI生成)による評価は、完全な微調整された手法やNR-IQAモデルに対する競合性能を示し、KADID-10k上で0.93SRCCを達成する。
我々の知る限り、これはNR-IQAに対してピクセル空間の視覚的プロンプトを利用する最初の試みであり、低レベルの視覚タスクに対して効率的なMLLM適応を可能にする。
ソースコードはhttps: // github.comで公開されている。
サンプル2-vp-for-nriqa.com/yahya-ben/ mplug2-vp-for-nriqa。
関連論文リスト
- Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation [102.10193318526137]
大規模マルチモーダルモデル(LMM)は近年,低レベルの視覚知覚タスクにおいて顕著な将来性を示している。
我々は,LMMの画像品質評価(IQA)能力を向上させるトレーニングフリーフレームワークであるIQARAGを紹介する。
IQARAGはRetrieval-Augmented Generation (RAG)を利用して、意味論的に類似しているが品質の異なる参照画像と対応する平均オピニオンスコア(MOS)を入力画像として取得する。
論文 参考訳(メタデータ) (2026-01-13T08:00:02Z) - CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video [9.172799792564009]
本稿では,大規模モデルの意味理解機能を活用した新しいNR-VQAフレームワークであるCAMP-VQAを提案する。
本手法では,フレーム間変動から抽出したキーフラグメントを統合する品質対応ビデオメタデータ機構を提案する。
我々のモデルは既存のNR-VQA法を一貫して上回り、手作業の細かいアノテーションを使わずに精度の向上を実現している。
論文 参考訳(メタデータ) (2025-11-10T16:37:47Z) - VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank [23.613534906344753]
推論による非参照IQA(NR-IQA)モデルであるVisualQuality-R1を紹介する。
我々は、視覚的品質の本質的に相対的な性質に合わせた学習アルゴリズムである、ランク付けのための強化学習でこれを訓練する。
実験では、VisualQuality-R1は差別的なディープラーニングベースのNR-IQAモデルより一貫して優れている。
論文 参考訳(メタデータ) (2025-05-20T14:56:50Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization [55.09893295671917]
本稿では,Gdient-Regulated Meta-Prompt IQA Framework (GRMP-IQA)を紹介する。
GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。
5つの標準BIQAデータセットの実験は、限られたデータ設定下での最先端BIQA手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Feature Denoising Diffusion Model for Blind Image Quality Assessment [58.5808754919597]
Blind Image Quality Assessment (BIQA) は、基準ベンチマークを使わずに、人間の知覚に合わせて画質を評価することを目的としている。
ディープラーニング BIQA の手法は、一般的に、伝達学習のための高レベルのタスクの特徴の使用に依存する。
本稿では,BIQAにおける特徴認知のための拡散モデルについて検討する。
論文 参考訳(メタデータ) (2024-01-22T13:38:24Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - QuickQual: Lightweight, convenient retinal image quality scoring with
off-the-shelf pretrained models [2.9005223064604078]
画像品質は、従来型およびディープラーニング(DL)ベースの網膜画像解析のアプローチにおいて重要な問題である。
本稿では,1つの既製のImageNet-pretrained Densenet121バックボーンとSVM(Support Vector Machine)を組み合わせたRIQSに対する簡単なアプローチを提案する。
QuickQualは非常によく機能し、EyeQの最先端を新たに設定する。
第2のモデルであるQuickQual Mega Minified Estimator(QuickQual-MEME)を、市販のDensenet121上に10個のパラメータで構成する。
論文 参考訳(メタデータ) (2023-07-25T16:55:13Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。