論文の概要: Q-Bench-Portrait: Benchmarking Multimodal Large Language Models on Portrait Image Quality Perception
- arxiv url: http://arxiv.org/abs/2601.18346v1
- Date: Mon, 26 Jan 2026 10:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.782075
- Title: Q-Bench-Portrait: Benchmarking Multimodal Large Language Models on Portrait Image Quality Perception
- Title(参考訳): Q-Bench-Portrait: 画像品質知覚に基づくマルチモーダル大言語モデルのベンチマーク
- Authors: Sijing Wu, Yunhao Li, Zicheng Zhang, Qi Jia, Xinyue Li, Huiyu Duan, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: マルチモーダルな大規模言語モデル (MLLM) は、既存の低レベルビジョンベンチマークで顕著な性能を示している。
Q-Bench-Portraitは、画像品質の知覚に特化して設計された最初の総合的なベンチマークである。
- 参考スコア(独自算出の注目度): 101.76154325436544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have demonstrated impressive performance on existing low-level vision benchmarks, which primarily focus on generic images. However, their capabilities to perceive and assess portrait images, a domain characterized by distinct structural and perceptual properties, remain largely underexplored. To this end, we introduce Q-Bench-Portrait, the first holistic benchmark specifically designed for portrait image quality perception, comprising 2,765 image-question-answer triplets and featuring (1) diverse portrait image sources, including natural, synthetic distortion, AI-generated, artistic, and computer graphics images; (2) comprehensive quality dimensions, covering technical distortions, AIGC-specific distortions, and aesthetics; and (3) a range of question formats, including single-choice, multiple-choice, true/false, and open-ended questions, at both global and local levels. Based on Q-Bench-Portrait, we evaluate 20 open-source and 5 closed-source MLLMs, revealing that although current models demonstrate some competence in portrait image perception, their performance remains limited and imprecise, with a clear gap relative to human judgments. We hope that the proposed benchmark will foster further research into enhancing the portrait image perception capabilities of both general-purpose and domain-specific MLLMs.
- Abstract(参考訳): MLLM(Multimodal large language model)の最近の進歩は、ジェネリックイメージを中心に、既存の低レベルビジョンベンチマークにおいて顕著なパフォーマンスを示している。
しかし、異なる構造的・知覚的性質を特徴とする領域である肖像画を知覚し、評価する能力はほとんど探索されていない。
そこで本研究では,(1)自然,合成歪み,AI生成,芸術,およびコンピュータグラフィックス画像を含む多彩なポートレート画像ソース,(2)技術的歪み,AIGC固有の歪み,審美を包含する包括的品質次元,(3)単一選択,複数選択,真/偽,オープンな問合せを含む問合せ形式を含む,画像品質の知覚に特化して設計された最初の総合的なベンチマークであるQ-Bench-Portraitを紹介する。
Q-Bench-Portraitに基づいて,20個のオープンソースと5個のクローズドソースMLLMを評価し,現在のモデルでは像認識にある程度の能力があるが,その性能は人間の判断に比して明らかな差があり,限定的かつ不正確であることを示した。
提案したベンチマークは、汎用MLLMとドメイン固有MLLMの両方のポートレートイメージ認識能力の向上に関するさらなる研究を促進することを期待する。
関連論文リスト
- UR-Bench: A Benchmark for Multi-Hop Reasoning over Ultra-High-Resolution Images [32.910783646241754]
超高分解能推論ベンチマーク (UR-Bench) を導入する。
UR-BenchはHumanistic ScenesとNatural Scenesの2つの主要なカテゴリで構成され、超高解像度画像の4つのサブセットをカバーする。
本稿では,言語モデルが外部視覚ツールを呼び出すことによって推論を行うエージェントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-31T02:22:50Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - Dual-Branch Network for Portrait Image Quality Assessment [76.27716058987251]
ポートレート画像品質評価のためのデュアルブランチネットワーク(PIQA)を提案する。
我々は2つのバックボーンネットワーク(textiti.e., Swin Transformer-B)を使用して、肖像画全体と顔画像から高品質な特徴を抽出する。
我々は、画像シーンの分類と品質評価モデルであるLIQEを利用して、品質認識とシーン固有の特徴を補助的特徴として捉えている。
論文 参考訳(メタデータ) (2024-05-14T12:43:43Z) - VisualCritic: Making LMMs Perceive Visual Quality Like Humans [65.59779450136399]
広視野画像の主観的品質評価のための最初のLMMであるVisualCriticを提案する。
VisualCriticは、データセット固有の適応操作を必要とせずに、最初からさまざまなデータにまたがって使用することができる。
論文 参考訳(メタデータ) (2024-03-19T15:07:08Z) - A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment [46.55045595936298]
MLLM(Multimodal Large Language Models)は、視覚的理解と推論において大きな進歩を経験している。
画像品質評価(IQA)のための強力でフレキシブル、解釈可能、およびテキスト駆動モデルとして機能する可能性については、まだ明らかにされていない。
論文 参考訳(メタデータ) (2024-03-16T08:30:45Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。