論文の概要: Revisiting Vision Language Foundations for No-Reference Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2509.17374v1
- Date: Mon, 22 Sep 2025 06:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.237511
- Title: Revisiting Vision Language Foundations for No-Reference Image Quality Assessment
- Title(参考訳): 非参照画像品質評価のためのビジョン言語基盤の再検討
- Authors: Ankit Yadav, Ta Duc Huy, Lingqiao Liu,
- Abstract要約: 大規模視覚言語事前学習は、最近、非参照画像品質評価(NR-IQA)を約束している。
No-Reference Image Quality Assessment (NR-IQA) の課題として,CLIP,SigLIP2,DINOv2,DINOv3,Perception,ResNetの6つの顕著なトレーニング済みバックボーンについて,最初の体系的評価を行った。
本研究では,(1)SigLIP2が常に高い性能を達成し,(2)アクティベーション関数の選択が特に画像品質評価モデルの一般化能力を高める上で,驚くほど重要な役割を担っていることを明らかにする。
- 参考スコア(独自算出の注目度): 31.550239698285058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale vision language pre-training has recently shown promise for no-reference image-quality assessment (NR-IQA), yet the relative merits of modern Vision Transformer foundations remain poorly understood. In this work, we present the first systematic evaluation of six prominent pretrained backbones, CLIP, SigLIP2, DINOv2, DINOv3, Perception, and ResNet, for the task of No-Reference Image Quality Assessment (NR-IQA), each finetuned using an identical lightweight MLP head. Our study uncovers two previously overlooked factors: (1) SigLIP2 consistently achieves strong performance; and (2) the choice of activation function plays a surprisingly crucial role, particularly for enhancing the generalization ability of image quality assessment models. Notably, we find that simple sigmoid activations outperform commonly used ReLU and GELU on several benchmarks. Motivated by this finding, we introduce a learnable activation selection mechanism that adaptively determines the nonlinearity for each channel, eliminating the need for manual activation design, and achieving new state-of-the-art SRCC on CLIVE, KADID10K, and AGIQA3K. Extensive ablations confirm the benefits across architectures and regimes, establishing strong, resource-efficient NR-IQA baselines.
- Abstract(参考訳): 大規模な視覚言語事前学習は、最近、非参照画像品質評価(NR-IQA)を約束しているが、現代のビジョントランスフォーマーの基礎の相対的な利点はよく分かっていない。
そこで本研究では,Non-Reference Image Quality Assessment (NR-IQA) の課題に対して,CLIP,SigLIP2,DINOv2,DINOv3,Perception,ResNetの6つの先行トレーニングバックボーンを,それぞれ同一の軽量MLPヘッドを用いて微調整した。
本研究では,(1)SigLIP2が常に高い性能を達成し,(2)アクティベーション関数の選択が特に画像品質評価モデルの一般化能力を高める上で,驚くほど重要な役割を担っていることを明らかにする。
特に,いくつかのベンチマークにおいて,単純なシグモイドアクティベーションがReLUやGELUよりも優れていた。
そこで本研究では,各チャネルの非線形性を適応的に決定し,手動アクティベーション設計の必要性を排除し,CLIVE,KADID10K,AGIQA3K上で新たな最先端SRCCを実現する,学習可能なアクティベーション選択機構を提案する。
大規模な改善により、アーキテクチャやレシエーションのメリットが確認され、強力なリソース効率の高いNR-IQAベースラインが確立される。
関連論文リスト
- Refine-IQA: Multi-Stage Reinforcement Finetuning for Perceptual Image Quality Assessment [22.184690568393126]
強化微調整(Reinforcement fine-tuning, RFT)は、LMMトレーニングのパラダイムである。
マルチステージ RFT IQA フレームワーク (-IQA) を提案する。
結果のRefine-IQAシリーズモデルは、知覚とスコアリングの両方で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-04T22:46:10Z) - EyeSim-VQA: A Free-Energy-Guided Eye Simulation Framework for Video Quality Assessment [68.77813885751308]
EyeSimVQAは、自由エネルギーベースの自己修復を取り入れた新しいVQAフレームワークである。
現状の手法と比較して,EyeSimVQAは競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-06-13T08:00:54Z) - VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank [23.613534906344753]
推論による非参照IQA(NR-IQA)モデルであるVisualQuality-R1を紹介する。
我々は、視覚的品質の本質的に相対的な性質に合わせた学習アルゴリズムである、ランク付けのための強化学習でこれを訓練する。
実験では、VisualQuality-R1は差別的なディープラーニングベースのNR-IQAモデルより一貫して優れている。
論文 参考訳(メタデータ) (2025-05-20T14:56:50Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - IQPFR: An Image Quality Prior for Blind Face Restoration and Beyond [56.99331967165238]
Blind Face Restoration (BFR)は、劣化した低品質(LQ)の顔画像を高品質(HQ)の出力に再構成する課題に対処する。
本研究では,非参照画像品質評価(NR-IQA)モデルから得られた画像品質優先(IQP)を組み込んだ新しいフレームワークを提案する。
提案手法は,複数のベンチマークにおいて最先端技術より優れている。
論文 参考訳(メタデータ) (2025-03-12T11:39:51Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Q-Boost: On Visual Quality Assessment Ability of Low-level
Multi-Modality Foundation Models [80.79438689784958]
画像品質評価(IQA)および映像品質評価(VQA)タスクにおける低レベルMLLMの強化を目的とした戦略であるQ-Boostを紹介する。
Q-Boostは$neutral$プロンプトを通じてミドルグラウンドのアプローチを導入し、よりバランスよく詳細な評価を可能にする。
実験の結果,低レベルMLLMはQ-Boost戦略を備えたIQA/VQAタスクに優れたゼロショット性能を示した。
論文 参考訳(メタデータ) (2023-12-23T17:02:25Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。