論文の概要: Q-Boost: On Visual Quality Assessment Ability of Low-level
Multi-Modality Foundation Models
- arxiv url: http://arxiv.org/abs/2312.15300v1
- Date: Sat, 23 Dec 2023 17:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:36:29.307091
- Title: Q-Boost: On Visual Quality Assessment Ability of Low-level
Multi-Modality Foundation Models
- Title(参考訳): q-boost:低レベルマルチモダリティ基礎モデルの視覚品質評価能力について
- Authors: Zicheng Zhang, Haoning Wu, Zhongpeng Ji, Chunyi Li, Erli Zhang, Wei
Sun, Xiaohong Liu, Xiongkuo Min, Fengyu Sun, Shangling Jui, Weisi Lin,
Guangtao Zhai
- Abstract要約: 画像品質評価(IQA)および映像品質評価(VQA)タスクにおける低レベルMLLMの強化を目的とした戦略であるQ-Boostを紹介する。
Q-Boostは$neutral$プロンプトを通じてミドルグラウンドのアプローチを導入し、よりバランスよく詳細な評価を可能にする。
実験の結果,低レベルMLLMはQ-Boost戦略を備えたIQA/VQAタスクに優れたゼロショット性能を示した。
- 参考スコア(独自算出の注目度): 80.79438689784958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Multi-modality Large Language Models (MLLMs) have
demonstrated remarkable capabilities in complex high-level vision tasks.
However, the exploration of MLLM potential in visual quality assessment, a
vital aspect of low-level vision, remains limited. To address this gap, we
introduce Q-Boost, a novel strategy designed to enhance low-level MLLMs in
image quality assessment (IQA) and video quality assessment (VQA) tasks, which
is structured around two pivotal components: 1) Triadic-Tone Integration:
Ordinary prompt design simply oscillates between the binary extremes of
$positive$ and $negative$. Q-Boost innovates by incorporating a `middle ground'
approach through $neutral$ prompts, allowing for a more balanced and detailed
assessment. 2) Multi-Prompt Ensemble: Multiple quality-centric prompts are used
to mitigate bias and acquire more accurate evaluation. The experimental results
show that the low-level MLLMs exhibit outstanding zeros-shot performance on the
IQA/VQA tasks equipped with the Q-Boost strategy.
- Abstract(参考訳): MLLM(Multi-modality Large Language Models)の最近の進歩は、複雑な高次視覚タスクにおいて顕著な能力を示している。
しかし、低レベルの視力の重要な側面である視覚品質評価におけるMLLMの可能性の探索は依然として限られている。
このギャップに対処するために,画像品質評価(iqa)と映像品質評価(vqa)タスクにおける低レベルmllmを強化するために設計された新しい戦略であるq-boostを紹介する。
1) Triadic-Tone Integration: 通常のプロンプト設計は、単に$ positive$ と $ negative$ のバイナリ極端の間で振動する。
Q-Boostは$neutral$プロンプトを通じて‘ミドルグラウンド’アプローチを導入し、よりバランスよく詳細な評価を可能にする。
2)マルチプロンプト・アンサンブル:複数の品質中心のプロンプトを用いてバイアスを緩和し,より正確な評価を得る。
実験の結果,低レベルMLLMはQ-Boost戦略を備えたIQA/VQAタスクに優れたゼロショット性能を示した。
関連論文リスト
- VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - 2AFC Prompting of Large Multimodal Models for Image Quality Assessment [38.86162365208038]
2-alternative forced choice (2AFC) は視覚的品質に関する人間の意見を集める最も信頼性の高い方法であると考えられている。
特定のLMMで推定される各画像のグローバルな品質スコアを、最大後部推定を用いて効率的に集計することができる。
論文 参考訳(メタデータ) (2024-02-02T06:05:18Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。