論文の概要: Guiding Perception-Reasoning Closer to Human in Blind Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2512.16484v1
- Date: Thu, 18 Dec 2025 12:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.058672
- Title: Guiding Perception-Reasoning Closer to Human in Blind Image Quality Assessment
- Title(参考訳): ブラインド画像品質評価におけるパーセプション推論の人間への応用
- Authors: Yuan Li, Yahan Yu, Youyuan Lin, Yong-Hao Yang, Chenhui Chu, Shin'ya Nishida,
- Abstract要約: 視覚的画像品質評価(BIQA)において、モデルが人間らしく、自己整合性のある推論能力の両方を取得する方法を検討する。
まず、人間の知覚関連パイプラインのいくつかの側面を捉えた人間の評価データを収集する。
我々は、人間のアノテーションを報酬信号として用い、人間のような知覚と推論に向けてモデルを導く強化学習を採用する。
- 参考スコア(独自算出の注目度): 24.713568842749222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans assess image quality through a perception-reasoning cascade, integrating sensory cues with implicit reasoning to form self-consistent judgments. In this work, we investigate how a model can acquire both human-like and self-consistent reasoning capability for blind image quality assessment (BIQA). We first collect human evaluation data that capture several aspects of human perception-reasoning pipeline. Then, we adopt reinforcement learning, using human annotations as reward signals to guide the model toward human-like perception and reasoning. To enable the model to internalize self-consistent reasoning capability, we design a reward that drives the model to infer the image quality purely from self-generated descriptions. Empirically, our approach achieves score prediction performance comparable to state-of-the-art BIQA systems under general metrics, including Pearson and Spearman correlation coefficients. In addition to the rating score, we assess human-model alignment using ROUGE-1 to measure the similarity between model-generated and human perception-reasoning chains. On over 1,000 human-annotated samples, our model reaches a ROUGE-1 score of 0.512 (cf. 0.443 for baseline), indicating substantial coverage of human explanations and marking a step toward human-like interpretable reasoning in BIQA.
- Abstract(参考訳): 人間は知覚に影響を及ぼすカスケードを通して画像の品質を評価し、感覚の手がかりを暗黙の推論と統合し、自己一貫性のある判断を形成する。
本研究では,視覚的画像品質評価(BIQA)において,モデルが人間らしく,自己整合性のある推論能力を両立させる方法について検討する。
まず、人間の知覚関連パイプラインのいくつかの側面を捉えた人間の評価データを収集する。
そこで我々は,人間のアノテーションを報酬信号として用い,人間のような知覚と推論に向けてモデルを導く強化学習を採用した。
モデルが自己整合性推論能力を内在化できるようにするため、自己生成記述から純粋に画像品質を推測する報酬を設計する。
提案手法は,PearsonとSpearmanの相関係数を含む一般的な測定値の下で,最先端のBIQAシステムに匹敵するスコア予測性能を実証的に達成する。
評価スコアに加えて,ROUGE-1を用いて人体モデルアライメントを評価し,モデル生成鎖と人間の知覚関連鎖の類似性を評価する。
ヒトに注釈を付けた1000点以上のサンプルでは,ROUGE-1スコアが0.512点(ベースラインは0.443点)に達し,人間の説明が相当に網羅され,BIQAにおける人間のような解釈可能な推論への一歩が示される。
関連論文リスト
- The Catastrophic Paradox of Human Cognitive Frameworks in Large Language Model Evaluation: A Comprehensive Empirical Analysis of the CHC-LLM Incompatibility [0.0]
平均的な人間のIQスコアを達成するモデルは、結晶化された知識タスクにおいてゼロに近づいた二分精度を同時に示す。
この切断は、結晶化されたインテリジェンス領域において最も強く現れる。
人工知能の非人間性を認識するネイティブマシン認識アセスメントを開発するための枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-23T05:49:57Z) - HumanPCR: Probing MLLM Capabilities in Diverse Human-Centric Scenes [72.26829188852139]
HumanPCRは、人間の視覚的コンテキストに関するMLLMの能力を調べるための評価スイートである。
Human-P、HumanThought-C、Human-Rは、6,000以上の人間認証された複数の選択質問を特徴としている。
Human-Rは、手動でキュレートされたビデオ推論テストを提供する。
論文 参考訳(メタデータ) (2025-08-19T09:52:04Z) - Image Quality Assessment for Embodied AI [103.66095742463195]
Embodied AIは近年急速に発展しているが、現在も主に実験室に配備されている。
具体的タスク、すなわちロボットの知覚品質における画像のユーザビリティを評価するためのIQA手法は存在しない。
論文 参考訳(メタデータ) (2025-05-22T15:51:07Z) - A Distributional Evaluation of Generative Image Models [2.520143908749992]
画像生成モデルの評価に焦点が当てられ、人間の評価を金の基準として扱う研究が盛んである。
本研究では,学習したサンプル分布と対象サンプル分布の分布一致を評価するための総合的指標である埋め込み特性スコア(ECS)を提案する。
論文 参考訳(メタデータ) (2025-01-01T06:23:18Z) - Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge [51.93909886542317]
一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Mind the Uncertainty in Human Disagreement: Evaluating Discrepancies between Model Predictions and Human Responses in VQA [26.968874222330978]
本研究は,視覚質問応答(VQA)タスクに焦点をあてる。
視覚言語モデルが人間の反応の分布とどのように相関するかを評価する。
論文 参考訳(メタデータ) (2024-09-17T13:44:25Z) - Quality Assessment for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。
本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文 参考訳(メタデータ) (2024-05-12T17:45:11Z) - It HAS to be Subjective: Human Annotator Simulation via Zero-shot
Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。
人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。
本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T20:54:59Z) - Perceptual Attacks of No-Reference Image Quality Models with
Human-in-the-Loop [113.75573175709573]
NR-IQAモデルの知覚的堅牢性を調べるための最初の試みの1つを行う。
我々は,4つの完全参照IQAモデルの下で,知識駆動のNR-IQA法とデータ駆動のNR-IQA法を検証した。
4つのNR-IQAモデルは全て、提案した知覚的攻撃に対して脆弱であることがわかった。
論文 参考訳(メタデータ) (2022-10-03T13:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。