論文の概要: Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2601.08311v1
- Date: Tue, 13 Jan 2026 08:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.109822
- Title: Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation
- Title(参考訳): 検索・拡張生成によるLMMの画質評価能力の向上
- Authors: Kang Fu, Huiyu Duan, Zicheng Zhang, Yucheng Zhu, Jun Zhao, Xiongkuo Min, Jia Wang, Guangtao Zhai,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は近年,低レベルの視覚知覚タスクにおいて顕著な将来性を示している。
我々は,LMMの画像品質評価(IQA)能力を向上させるトレーニングフリーフレームワークであるIQARAGを紹介する。
IQARAGはRetrieval-Augmented Generation (RAG)を利用して、意味論的に類似しているが品質の異なる参照画像と対応する平均オピニオンスコア(MOS)を入力画像として取得する。
- 参考スコア(独自算出の注目度): 102.10193318526137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have recently shown remarkable promise in low-level visual perception tasks, particularly in Image Quality Assessment (IQA), demonstrating strong zero-shot capability. However, achieving state-of-the-art performance often requires computationally expensive fine-tuning methods, which aim to align the distribution of quality-related token in output with image quality levels. Inspired by recent training-free works for LMM, we introduce IQARAG, a novel, training-free framework that enhances LMMs' IQA ability. IQARAG leverages Retrieval-Augmented Generation (RAG) to retrieve some semantically similar but quality-variant reference images with corresponding Mean Opinion Scores (MOSs) for input image. These retrieved images and input image are integrated into a specific prompt. Retrieved images provide the LMM with a visual perception anchor for IQA task. IQARAG contains three key phases: Retrieval Feature Extraction, Image Retrieval, and Integration & Quality Score Generation. Extensive experiments across multiple diverse IQA datasets, including KADID, KonIQ, LIVE Challenge, and SPAQ, demonstrate that the proposed IQARAG effectively boosts the IQA performance of LMMs, offering a resource-efficient alternative to fine-tuning for quality assessment.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、特に画像品質評価(IQA)において、低レベルの視覚知覚タスクにおいて、強力なゼロショット能力を示す顕著な可能性を最近示した。
しかし、最先端の性能を達成するには、画像の品質レベルと品質関連トークンの分布を整合させる計算コストのかかる微調整が必要となることが多い。
LMMの最近のトレーニングフリーな作業に触発されて,LMMのIQA能力を高める新しいトレーニングフリーフレームワークIQARAGを紹介した。
IQARAGはRetrieval-Augmented Generation (RAG)を利用して、意味論的に類似しているが品質の異なる参照画像と対応する平均オピニオンスコア(MOS)を入力画像として取得する。
これらの検索された画像と入力画像は、特定のプロンプトに統合される。
取得した画像は、IQAタスクのための視覚知覚アンカーを備えたLMMを提供する。
IQARAGには、検索特徴抽出、画像検索、統合と品質スコア生成という3つの重要なフェーズがある。
KADID、KonIQ、LIVE Challenge、SPAQを含む多種多様なIQAデータセットにわたる大規模な実験は、提案されたIQARAGがLMMのIQA性能を効果的に向上させ、品質評価のための微調整に代わるリソース効率の良い代替手段を提供することを示した。
関連論文リスト
- Revisiting MLLM Based Image Quality Assessment: Errors and Remedy [23.918454005000328]
重要な課題は、MLLMの離散トークン出力とIQAタスクで要求される品質スコアの連続的な性質との間の固有のミスマッチから生じる。
軽量回帰モジュールとIQA固有のスコアトークンをMLLMパイプラインに組み込んだQ-Scorerを提案する。
Q-Scorerは、複数のIQAベンチマークで最先端のパフォーマンスを実現し、混合データセットに最適化し、他のメソッドと組み合わせることでさらに改善される。
論文 参考訳(メタデータ) (2025-11-11T04:08:44Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。
Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。
実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-12T09:39:33Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Sliced Maximal Information Coefficient: A Training-Free Approach for Image Quality Assessment Enhancement [12.628718661568048]
我々は,人間の品質評価の過程を模倣する,一般化された視覚的注意度推定戦略を検討することを目的とする。
特に、劣化画像と参照画像の統計的依存性を測定することによって、人間の注意生成をモデル化する。
既存のIQAモデルのアテンションモジュールを組み込んだ場合、既存のIQAモデルの性能を一貫して改善できることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-08-19T11:55:32Z) - Large Multi-modality Model Assisted AI-Generated Image Quality Assessment [53.182136445844904]
本稿では,AI生成画像品質評価モデル(MA-AGIQA)を提案する。
セマンティックインフォームドガイダンスを使用して意味情報を感知し、慎重に設計されたテキストプロンプトを通してセマンティックベクターを抽出する。
最先端のパフォーマンスを実現し、AI生成画像の品質を評価する上で優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-04-27T02:40:36Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。