論文の概要: Self-Evolving Vision-Language Models for Image Quality Assessment via Voting and Ranking
- arxiv url: http://arxiv.org/abs/2509.25787v2
- Date: Sat, 04 Oct 2025 03:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 12:09:05.130518
- Title: Self-Evolving Vision-Language Models for Image Quality Assessment via Voting and Ranking
- Title(参考訳): 投票とランキングによる画像品質評価のための自己進化型ビジョンランゲージモデル
- Authors: Wen Wen, Tianwu Zhi, Kanglong Fan, Yang Li, Xinge Peng, Yabin Zhang, Yiting Liao, Junlin Li, Li Zhang,
- Abstract要約: EvoQualityは、視覚言語モデルがその品質知覚能力を自律的に洗練することを可能にする新しいフレームワークである。
擬似ラベルを生成し、相対的な品質に関するコンセンサスを確立するために、VLMの出力に対してペアで多数投票を行うことで、擬似ラベルを生成する。
VLMのゼロショット性能は、様々なIQAベンチマークでPLCCで31.8%向上した。
- 参考スコア(独自算出の注目度): 22.2866006389482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving vision-language models (VLMs) in the post-training stage typically relies on supervised fine-tuning or reinforcement learning, methods that necessitate costly, human-annotated data. While self-supervised techniques such as self-consistency have proven effective for enhancing reasoning capabilities, their application to perceptual domains such as image quality assessment (IQA) remains largely unexplored. In this work, we introduce EvoQuality, a novel framework that enables a VLM to autonomously refine its quality perception capabilities without any ground-truth labels. EvoQuality adapts the principle of self-consistency to the ranking-based nature of IQA. It generates pseudo-labels by performing pairwise majority voting on the VLM's own outputs to establish a consensus on relative quality. These pseudo-rankings are then formulated into a fidelity reward that guides the model's iterative evolution through group relative policy optimization (GRPO). By iteratively leveraging its own predictions, EvoQuality progressively refines the VLM's perceptual capability. Extensive experiments show that EvoQuality boosts the base VLM's zero-shot performance by 31.8\% on PLCC across diverse IQA benchmarks. Remarkably, despite being entirely self-supervised, EvoQuality achieves performance that is competitive with, or even surpasses, state-of-the-art supervised VLM-based IQA models, outperforming these models on 5 out of 7 IQA benchmarks.
- Abstract(参考訳): 訓練後の段階での視覚言語モデル(VLM)の改善は、典型的には教師付き微調整や強化学習に頼っている。
自己整合性のような自己監督的手法は推論能力を高めるのに有効であることが証明されているが、画像品質評価(IQA)のような知覚領域への応用は未解明のままである。
そこで本研究では,VLM による品質認識能力の向上を実現する新しいフレームワークである EvoQuality について紹介する。
EvoQualityは、IQAのランクに基づく性質に自己整合性の原則を適用する。
擬似ラベルを生成し、相対的な品質に関するコンセンサスを確立するために、VLMの出力に対してペアで多数投票を行うことで、擬似ラベルを生成する。
これらの擬似階数は、群相対ポリシー最適化(GRPO)を通してモデルの反復進化を導く忠実報酬に定式化される。
自身の予測を反復的に活用することで、EvoQualityはVLMの知覚能力を徐々に洗練させる。
EvoQualityは、さまざまなIQAベンチマークでPLCCにおいて、ベースVLMのゼロショット性能を31.8\%向上させる。
注目すべきなのは、完全に自己監督されているにも関わらず、EvoQualityは最先端のVLMベースのIQAモデルと競合する、あるいは超えるパフォーマンスを実現し、7つのIQAベンチマークのうち5つでこれらのモデルを上回っていることだ。
関連論文リスト
- ELIQ: A Label-Free Framework for Quality Assessment of Evolving AI-Generated Images [76.5101823186747]
本稿では,AI生成画像の品質評価のためのラベルフリーフレームワークELIQを提案する。
具体的には、ELIQは視覚的品質と迅速なイメージアライメントに重点を置いている。
従来の歪みとAIGC固有の歪みモードの両方をカバーするために、正とアスペクト固有の負のペアを自動的に構成する。
論文 参考訳(メタデータ) (2026-02-03T14:04:51Z) - Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation [102.10193318526137]
大規模マルチモーダルモデル(LMM)は近年,低レベルの視覚知覚タスクにおいて顕著な将来性を示している。
我々は,LMMの画像品質評価(IQA)能力を向上させるトレーニングフリーフレームワークであるIQARAGを紹介する。
IQARAGはRetrieval-Augmented Generation (RAG)を利用して、意味論的に類似しているが品質の異なる参照画像と対応する平均オピニオンスコア(MOS)を入力画像として取得する。
論文 参考訳(メタデータ) (2026-01-13T08:00:02Z) - PreResQ-R1: Towards Fine-Grained Rank-and-Score Reinforcement Learning for Visual Quality Assessment via Preference-Response Disentangled Policy Optimization [12.993619998545633]
PreResQ-R1はPreference-Response Disentangled Reinforcement Learningフレームワークである。
1つの推論駆動最適化スキームにおいて絶対スコア回帰と相対ランク一貫性を統一する。
10 IQA と 5 VQA のベンチマークにおいて、SRCC と PLCC のメトリクスで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-11-07T16:19:50Z) - iDETEX: Empowering MLLMs for Intelligent DETailed EXplainable IQA [10.857047397246598]
iDETEXはMLLM(Multimodal large language model)であり、品質基盤、知覚、記述の3つの重要なタスクを同時に実行することができる。
我々は,iDETEXが全サブタスクにわたる最先端性能を実現する大規模ViDA-UGCベンチマークに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-10-20T09:26:12Z) - AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文 参考訳(メタデータ) (2025-09-30T09:37:01Z) - VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning [50.34205095371895]
映像品質評価は、知覚的品質劣化を客観的に定量化することを目的としている。
既存のVQAモデルには2つの限界がある。
推論に基づくVQAフレームワークである textbfVQAThinker を提案する。
論文 参考訳(メタデータ) (2025-08-08T06:16:23Z) - Refine-IQA: Multi-Stage Reinforcement Finetuning for Perceptual Image Quality Assessment [22.184690568393126]
強化微調整(Reinforcement fine-tuning, RFT)は、LMMトレーニングのパラダイムである。
マルチステージ RFT IQA フレームワーク (-IQA) を提案する。
結果のRefine-IQAシリーズモデルは、知覚とスコアリングの両方で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-04T22:46:10Z) - EyeSim-VQA: A Free-Energy-Guided Eye Simulation Framework for Video Quality Assessment [68.77813885751308]
EyeSimVQAは、自由エネルギーベースの自己修復を取り入れた新しいVQAフレームワークである。
現状の手法と比較して,EyeSimVQAは競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-06-13T08:00:54Z) - Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。
我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。
既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。