論文の概要: Investigate the Low-level Visual Perception in Vision-Language based Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2512.09573v1
- Date: Wed, 10 Dec 2025 12:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.51039
- Title: Investigate the Low-level Visual Perception in Vision-Language based Image Quality Assessment
- Title(参考訳): 視覚言語に基づく画像品質評価における低レベル視覚知覚の検討
- Authors: Yuan Li, Zitang Sun, Yen-Ju Chen, Shin'ya Nishida,
- Abstract要約: 低レベルの歪み知覚タスクを導入し、モデルが特定の歪みタイプを分類する必要がある。
解析の結果,MLLMは構造的にそのような歪みを表現できるが,トレーニングテンプレートに適合しがちであることがわかった。
視覚エンコーダのアライメントを改善することで、歪み認識精度が劇的に向上し、14.92%から84.43%に向上することを示す。
- 参考スコア(独自算出の注目度): 7.969076042774561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Image Quality Assessment (IQA) have leveraged Multi-modal Large Language Models (MLLMs) to generate descriptive explanations. However, despite their strong visual perception modules, these models often fail to reliably detect basic low-level distortions such as blur, noise, and compression, and may produce inconsistent evaluations across repeated inferences. This raises an essential question: do MLLM-based IQA systems truly perceive the visual features that matter? To examine this issue, we introduce a low-level distortion perception task that requires models to classify specific distortion types. Our component-wise analysis shows that although MLLMs are structurally capable of representing such distortions, they tend to overfit training templates, leading to biases in quality scoring. As a result, critical low-level features are weakened or lost during the vision-language alignment transfer stage. Furthermore, by computing the semantic distance between visual features and corresponding semantic tokens before and after component-wise fine-tuning, we show that improving the alignment of the vision encoder dramatically enhances distortion recognition accuracy, increasing it from 14.92% to 84.43%. Overall, these findings indicate that incorporating dedicated constraints on the vision encoder can strengthen text-explainable visual representations and enable MLLM-based pipelines to produce more coherent and interpretable reasoning in vision-centric tasks.
- Abstract(参考訳): 画像品質評価(IQA)の最近の進歩は、マルチモーダル大言語モデル(MLLM)を活用して記述的な説明を生み出している。
しかし、その強力な視覚認識モジュールにもかかわらず、これらのモデルは、ぼやけ、ノイズ、圧縮などの基本的な低レベルの歪みを確実に検出することができず、繰り返しの推論で不整合評価を生じさせる可能性がある。
MLLMベースのIQAシステムは、重要な視覚的特徴を本当に認識しているのか?
そこで本研究では,モデルが特定の歪みタイプを分類する必要がある低レベルの歪み知覚タスクを提案する。
MLLMは構造的にそのような歪みを表現できるが、トレーニングテンプレートに過度に適合する傾向があり、品質スコアリングのバイアスが生じる傾向にある。
その結果、視覚言語アライメント転送段階において、臨界低レベル特徴が弱まるか失われる。
さらに,コンポーネントの微調整前後の視覚特徴と対応する意味トークンのセマンティック距離を計算することにより,視覚エンコーダのアライメントを改善することにより,歪み認識精度が劇的に向上し,14.92%から84.43%に向上することを示す。
これらの結果は、視覚エンコーダに専用の制約を組み込むことで、テキスト記述可能な視覚表現を強化し、MLLMベースのパイプラインが視覚中心のタスクにおいてより一貫性と解釈可能な推論を実現できることを示唆している。
関連論文リスト
- The Perceptual Observatory Characterizing Robustness and Grounding in MLLMs [44.71703930770065]
The Perceptual Observatoryは、顔マッチングやテキスト・イン・ビジョンの理解機能など、MLLMを垂直方向に特徴付けるフレームワークである。
知覚観測所はリーダーボードの精度を超えて、MLLMが摂動下での知覚的接地と関係構造をどのように保存するかについての洞察を得る。
論文 参考訳(メタデータ) (2025-12-17T20:22:23Z) - Q-Doc: Benchmarking Document Image Quality Assessment Capabilities in Multi-modal Large Language Models [19.598563198222035]
本稿では,MLLMの粗度,中度,微粒度レベルでのDIQA能力を体系的に探索するQ-Docを提案する。
MLLMはDIQA能力を有するが,不整合スコア,歪み誤同定,重度誤判断などの限界がみられた。
我々の研究は、MLLMにおけるDIQA能力のベンチマークを提供し、その品質知覚における明らかな欠陥と、拡張のための有望な経路を明らかにする。
論文 参考訳(メタデータ) (2025-11-14T15:41:17Z) - Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。
本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。
モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文 参考訳(メタデータ) (2025-06-18T17:14:07Z) - Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。
本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。
これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文 参考訳(メタデータ) (2025-04-23T14:01:32Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。