論文の概要: Decoupling Perception and Calibration: Label-Efficient Image Quality Assessment Framework
- arxiv url: http://arxiv.org/abs/2601.20689v1
- Date: Wed, 28 Jan 2026 15:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.995051
- Title: Decoupling Perception and Calibration: Label-Efficient Image Quality Assessment Framework
- Title(参考訳): 知覚と校正の分離: ラベル効率の良い画像品質評価フレームワーク
- Authors: Xinyue Li, Zhichao Zhang, Zhiming Xu, Shubo Xu, Xiongkuo Min, Yitong Chen, Guangtao Zhai,
- Abstract要約: LEAFはラベル効率の良い画像品質評価フレームワークである。
MLLM教師の知覚的品質の先行を軽量な学生回帰器に蒸留する。
提案手法は,強いMOS対応相関を維持しつつ,人間のアノテーションの必要性を著しく低減する。
- 参考スコア(独自算出の注目度): 78.58395822978271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal large language models (MLLMs) have demonstrated strong capabilities in image quality assessment (IQA) tasks. However, adapting such large-scale models is computationally expensive and still relies on substantial Mean Opinion Score (MOS) annotations. We argue that for MLLM-based IQA, the core bottleneck lies not in the quality perception capacity of MLLMs, but in MOS scale calibration. Therefore, we propose LEAF, a Label-Efficient Image Quality Assessment Framework that distills perceptual quality priors from an MLLM teacher into a lightweight student regressor, enabling MOS calibration with minimal human supervision. Specifically, the teacher conducts dense supervision through point-wise judgments and pair-wise preferences, with an estimate of decision reliability. Guided by these signals, the student learns the teacher's quality perception patterns through joint distillation and is calibrated on a small MOS subset to align with human annotations. Experiments on both user-generated and AI-generated IQA benchmarks demonstrate that our method significantly reduces the need for human annotations while maintaining strong MOS-aligned correlations, making lightweight IQA practical under limited annotation budgets.
- Abstract(参考訳): 近年のマルチモーダル大規模言語モデル(MLLM)は,画像品質評価(IQA)タスクにおいて強力な機能を示している。
しかし、そのような大規模モデルへの適応は計算コストが高く、依然としてかなりの平均オピニオンスコア(MOS)アノテーションに依存している。
MLLMをベースとしたIQAでは,MLLMの品質認識能力だけでなく,MOSスケールのキャリブレーションにもボトルネックがある。
そこで我々は,MLLM教師の知覚的品質を軽量な学生回帰器に蒸留し,人間の監督を最小限に抑えたMOSキャリブレーションを実現するラベル有効画像品質評価フレームワークLEAFを提案する。
特に、教師は、決定信頼性を見積もって、ポイントワイドな判断とペアワイドな選好を通じて、密集した監督を行う。
これらの信号に導かれ、学生は共同蒸留を通して教師の質認知パターンを学習し、人間のアノテーションに合わせるために小さなMOSサブセットで校正される。
ユーザ生成型とAI生成型両方のIQAベンチマーク実験により,本手法は強いMOS対応相関を維持しつつ,人間のアノテーションの必要性を大幅に低減し,限られたアノテーション予算の下で軽量IQAを実用的なものにすることを示した。
関連論文リスト
- Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation [102.10193318526137]
大規模マルチモーダルモデル(LMM)は近年,低レベルの視覚知覚タスクにおいて顕著な将来性を示している。
我々は,LMMの画像品質評価(IQA)能力を向上させるトレーニングフリーフレームワークであるIQARAGを紹介する。
IQARAGはRetrieval-Augmented Generation (RAG)を利用して、意味論的に類似しているが品質の異なる参照画像と対応する平均オピニオンスコア(MOS)を入力画像として取得する。
論文 参考訳(メタデータ) (2026-01-13T08:00:02Z) - Q-Doc: Benchmarking Document Image Quality Assessment Capabilities in Multi-modal Large Language Models [19.598563198222035]
本稿では,MLLMの粗度,中度,微粒度レベルでのDIQA能力を体系的に探索するQ-Docを提案する。
MLLMはDIQA能力を有するが,不整合スコア,歪み誤同定,重度誤判断などの限界がみられた。
我々の研究は、MLLMにおけるDIQA能力のベンチマークを提供し、その品質知覚における明らかな欠陥と、拡張のための有望な経路を明らかにする。
論文 参考訳(メタデータ) (2025-11-14T15:41:17Z) - Image Quality Assessment for Machines: Paradigm, Large-scale Database, and Models [60.356842878501254]
マシンビジョンシステム(MVS)は、視覚の悪条件下での性能劣化に対して本質的に脆弱である。
画像劣化がMVS性能に与える影響を定量的に評価するマシン中心画像品質評価(MIQA)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-27T13:07:24Z) - Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。
Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。
実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-12T09:39:33Z) - Your Weak LLM is Secretly a Strong Teacher for Alignment [19.33906256866585]
既存のアライメントフレームワークは、高価な人的労力または高い計算コストの形で制約を提示します。
本稿では,上位層モデルよりも資源集約度が低い弱いLLMを用いた,有望な中間層を探索する。
弱いLLMは、完全に注釈付けされたデータに匹敵する、あるいは超えるフィードバックを提供することができる。
論文 参考訳(メタデータ) (2024-09-13T13:24:52Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model [28.32514067707762]
本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
MPLアプローチによるMTQ-Netは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
論文 参考訳(メタデータ) (2023-08-18T02:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。