論文の概要: Building Reasonable Inference for Vision-Language Models in Blind Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2512.09555v1
- Date: Wed, 10 Dec 2025 11:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.5009
- Title: Building Reasonable Inference for Vision-Language Models in Blind Image Quality Assessment
- Title(参考訳): ブラインド画像品質評価における視覚言語モデルの構築
- Authors: Yuan Li, Zitang Sun, Yen-ju Chen, Shin'ya Nishida,
- Abstract要約: 我々は、矛盾する評価と不安定を引き起こす要因を分析する。
本稿では,視覚知覚を品質推定から明確に分離する2段階チューニング手法を提案する。
- 参考スコア(独自算出の注目度): 7.969076042774561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in BIQA has been driven by VLMs, whose semantic reasoning abilities suggest that they might extract visual features, generate descriptive text, and infer quality in a human-like manner. However, these models often produce textual descriptions that contradict their final quality predictions, and the predicted scores can change unstably during inference - behaviors not aligned with human reasoning. To understand these issues, we analyze the factors that cause contradictory assessments and instability. We first estimate the relationship between the final quality predictions and the generated visual features, finding that the predictions are not fully grounded in the features and that the logical connection between them is weak. Moreover, decoding intermediate VLM layers shows that the model frequently relies on a limited set of candidate tokens, which contributes to prediction instability. To encourage more human-like reasoning, we introduce a two-stage tuning method that explicitly separates visual perception from quality inference. In the first stage, the model learns visual features; in the second, it infers quality solely from these features. Experiments on SPAQ and KONIQ demonstrate that our approach reduces prediction instability from 22.00% to 12.39% and achieves average gains of 0.3124/0.3507 in SRCC/PLCC across LIVE, CSIQ, SPAQ, and KONIQ compared to the baseline. Further analyses show that our method improves both stability and the reliability of the inference process.
- Abstract(参考訳): BIQAの最近の進歩はVLMによって推進され、その意味的推論能力は視覚的特徴を抽出し、記述的なテキストを生成し、人間のような方法で品質を推測することを示唆している。
しかしながら、これらのモデルはしばしば、最終的な品質予測と矛盾するテキスト記述を生成し、予測されたスコアは推論中に不安定に変化する可能性がある。
これらの問題を理解するために、矛盾する評価や不安定を引き起こす要因を解析する。
まず、最終品質予測と生成した視覚的特徴の関係を推定し、その特徴が完全に根底にあるわけではなく、それらの間の論理的関係が弱いことを確かめる。
さらに、中間VLMレイヤの復号化は、モデルが予測不安定性に寄与する限定された候補トークンセットに頻繁に依存していることを示す。
より人間的な推論を促進するために,視覚知覚を品質推論から明確に分離する2段階のチューニング手法を提案する。
第1段階では、モデルは視覚的特徴を学習し、第2段階では、これらの特徴のみから品質を推測する。
SPAQ と KONIQ の実験により、我々の手法は予測不安定性を 22.00% から 12.39% に減らし、LIVE 、CSIQ、SPAQ、KONIQ にまたがる SRCC/PLCC の平均利得 0.3124/0.3507 に達することを示した。
さらに分析した結果,提案手法は推論プロセスの安定性と信頼性を両立させることがわかった。
関連論文リスト
- Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment [10.701522670464463]
MLLM(Multimodal large language model)は、解釈可能な評価によって視覚的品質を評価する。
冷間開始段階と強化学習に基づく微調整段階からなる統合された2段階訓練枠組みを提案する。
これら2つの段階から派生したモデルをQ-Ponder-CIとQ-Ponderと呼ぶ。
論文 参考訳(メタデータ) (2025-06-03T10:11:51Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Interpreting Predictive Probabilities: Model Confidence or Human Label
Variation? [27.226997687210044]
私たちは、非常に異なる評価プロトコルを駆動する2つの主要な視点を特定します。
我々は,それらのメリットと限界について論じ,両者が信頼に値する,公平なNLPシステムにとって重要であるという立場を取る。
我々はツールを推奨し、人間のラベルに関する不確実性や不確実性について不整合表現を持つモデルへのエキサイティングな方向を示す。
論文 参考訳(メタデータ) (2024-02-25T15:00:13Z) - DifFIQA: Face Image Quality Assessment Using Denoising Diffusion
Probabilistic Models [1.217503190366097]
顔画像品質評価(FIQA)技術は、これらの性能劣化を軽減することを目的としている。
拡散確率モデル(DDPM)に基づく強力な新しいFIQA手法DifFIQAを提案する。
拡散に基づく摂動は計算コストが高いため、DifFIQA(R)と呼ばれる回帰ベースの品質予測器にDifFIQAで符号化された知識を蒸留する。
論文 参考訳(メタデータ) (2023-05-09T21:03:13Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - Task-Specific Normalization for Continual Learning of Blind Image
Quality Models [105.03239956378465]
視覚的画像品質評価(BIQA)のための簡易かつ効果的な連続学習法を提案する。
このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明示的に保証することです。
我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。
最終的な品質推定は、軽量な$K$-meansゲーティング機構で、すべての頭からの予測の重み付け総和によって計算される。
論文 参考訳(メタデータ) (2021-07-28T15:21:01Z) - Uncertainty-Aware Blind Image Quality Assessment in the Laboratory and
Wild [98.48284827503409]
我々は,テキスト化BIQAモデルを開発し,それを合成的および現実的歪みの両方で訓練するアプローチを提案する。
我々は、多数の画像ペアに対してBIQAのためのディープニューラルネットワークを最適化するために、忠実度損失を用いる。
6つのIQAデータベースの実験は、実験室と野生動物における画像品質を盲目的に評価する学習手法の可能性を示唆している。
論文 参考訳(メタデータ) (2020-05-28T13:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。