論文の概要: Investigate the Low-level Visual Perception in Vision-Language based Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2512.09573v1
- Date: Wed, 10 Dec 2025 12:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.51039
- Title: Investigate the Low-level Visual Perception in Vision-Language based Image Quality Assessment
- Title(参考訳): 視覚言語に基づく画像品質評価における低レベル視覚知覚の検討
- Authors: Yuan Li, Zitang Sun, Yen-Ju Chen, Shin'ya Nishida,
- Abstract要約: 低レベルの歪み知覚タスクを導入し、モデルが特定の歪みタイプを分類する必要がある。
解析の結果,MLLMは構造的にそのような歪みを表現できるが,トレーニングテンプレートに適合しがちであることがわかった。
視覚エンコーダのアライメントを改善することで、歪み認識精度が劇的に向上し、14.92%から84.43%に向上することを示す。
- 参考スコア(独自算出の注目度): 7.969076042774561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Image Quality Assessment (IQA) have leveraged Multi-modal Large Language Models (MLLMs) to generate descriptive explanations. However, despite their strong visual perception modules, these models often fail to reliably detect basic low-level distortions such as blur, noise, and compression, and may produce inconsistent evaluations across repeated inferences. This raises an essential question: do MLLM-based IQA systems truly perceive the visual features that matter? To examine this issue, we introduce a low-level distortion perception task that requires models to classify specific distortion types. Our component-wise analysis shows that although MLLMs are structurally capable of representing such distortions, they tend to overfit training templates, leading to biases in quality scoring. As a result, critical low-level features are weakened or lost during the vision-language alignment transfer stage. Furthermore, by computing the semantic distance between visual features and corresponding semantic tokens before and after component-wise fine-tuning, we show that improving the alignment of the vision encoder dramatically enhances distortion recognition accuracy, increasing it from 14.92% to 84.43%. Overall, these findings indicate that incorporating dedicated constraints on the vision encoder can strengthen text-explainable visual representations and enable MLLM-based pipelines to produce more coherent and interpretable reasoning in vision-centric tasks.
- Abstract(参考訳): 画像品質評価(IQA)の最近の進歩は、マルチモーダル大言語モデル(MLLM)を活用して記述的な説明を生み出している。
しかし、その強力な視覚認識モジュールにもかかわらず、これらのモデルは、ぼやけ、ノイズ、圧縮などの基本的な低レベルの歪みを確実に検出することができず、繰り返しの推論で不整合評価を生じさせる可能性がある。
MLLMベースのIQAシステムは、重要な視覚的特徴を本当に認識しているのか?
そこで本研究では,モデルが特定の歪みタイプを分類する必要がある低レベルの歪み知覚タスクを提案する。
MLLMは構造的にそのような歪みを表現できるが、トレーニングテンプレートに過度に適合する傾向があり、品質スコアリングのバイアスが生じる傾向にある。
その結果、視覚言語アライメント転送段階において、臨界低レベル特徴が弱まるか失われる。
さらに,コンポーネントの微調整前後の視覚特徴と対応する意味トークンのセマンティック距離を計算することにより,視覚エンコーダのアライメントを改善することにより,歪み認識精度が劇的に向上し,14.92%から84.43%に向上することを示す。
これらの結果は、視覚エンコーダに専用の制約を組み込むことで、テキスト記述可能な視覚表現を強化し、MLLMベースのパイプラインが視覚中心のタスクにおいてより一貫性と解釈可能な推論を実現できることを示唆している。
関連論文リスト
- Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。
本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。
これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文 参考訳(メタデータ) (2025-04-23T14:01:32Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。