論文の概要: Q-Boost: On Visual Quality Assessment Ability of Low-level
Multi-Modality Foundation Models
- arxiv url: http://arxiv.org/abs/2312.15300v1
- Date: Sat, 23 Dec 2023 17:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:36:29.307091
- Title: Q-Boost: On Visual Quality Assessment Ability of Low-level
Multi-Modality Foundation Models
- Title(参考訳): q-boost:低レベルマルチモダリティ基礎モデルの視覚品質評価能力について
- Authors: Zicheng Zhang, Haoning Wu, Zhongpeng Ji, Chunyi Li, Erli Zhang, Wei
Sun, Xiaohong Liu, Xiongkuo Min, Fengyu Sun, Shangling Jui, Weisi Lin,
Guangtao Zhai
- Abstract要約: 画像品質評価(IQA)および映像品質評価(VQA)タスクにおける低レベルMLLMの強化を目的とした戦略であるQ-Boostを紹介する。
Q-Boostは$neutral$プロンプトを通じてミドルグラウンドのアプローチを導入し、よりバランスよく詳細な評価を可能にする。
実験の結果,低レベルMLLMはQ-Boost戦略を備えたIQA/VQAタスクに優れたゼロショット性能を示した。
- 参考スコア(独自算出の注目度): 80.79438689784958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Multi-modality Large Language Models (MLLMs) have
demonstrated remarkable capabilities in complex high-level vision tasks.
However, the exploration of MLLM potential in visual quality assessment, a
vital aspect of low-level vision, remains limited. To address this gap, we
introduce Q-Boost, a novel strategy designed to enhance low-level MLLMs in
image quality assessment (IQA) and video quality assessment (VQA) tasks, which
is structured around two pivotal components: 1) Triadic-Tone Integration:
Ordinary prompt design simply oscillates between the binary extremes of
$positive$ and $negative$. Q-Boost innovates by incorporating a `middle ground'
approach through $neutral$ prompts, allowing for a more balanced and detailed
assessment. 2) Multi-Prompt Ensemble: Multiple quality-centric prompts are used
to mitigate bias and acquire more accurate evaluation. The experimental results
show that the low-level MLLMs exhibit outstanding zeros-shot performance on the
IQA/VQA tasks equipped with the Q-Boost strategy.
- Abstract(参考訳): MLLM(Multi-modality Large Language Models)の最近の進歩は、複雑な高次視覚タスクにおいて顕著な能力を示している。
しかし、低レベルの視力の重要な側面である視覚品質評価におけるMLLMの可能性の探索は依然として限られている。
このギャップに対処するために,画像品質評価(iqa)と映像品質評価(vqa)タスクにおける低レベルmllmを強化するために設計された新しい戦略であるq-boostを紹介する。
1) Triadic-Tone Integration: 通常のプロンプト設計は、単に$ positive$ と $ negative$ のバイナリ極端の間で振動する。
Q-Boostは$neutral$プロンプトを通じて‘ミドルグラウンド’アプローチを導入し、よりバランスよく詳細な評価を可能にする。
2)マルチプロンプト・アンサンブル:複数の品質中心のプロンプトを用いてバイアスを緩和し,より正確な評価を得る。
実験の結果,低レベルMLLMはQ-Boost戦略を備えたIQA/VQAタスクに優れたゼロショット性能を示した。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment [46.55045595936298]
MLLM(Multimodal Large Language Models)は、視覚的理解と推論において大きな進歩を経験している。
画像品質評価(IQA)のための強力で柔軟性があり、解釈可能で、テキスト駆動型モデルとして機能する可能性については、まだ明らかにされていない。
論文 参考訳(メタデータ) (2024-03-16T08:30:45Z) - A Benchmark for Multi-modal Foundation Models on Low-level Vision: from
Single Images to Pairs [76.24832641793621]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - 2AFC Prompting of Large Multimodal Models for Image Quality Assessment [38.86162365208038]
2-alternative forced choice (2AFC) は視覚的品質に関する人間の意見を集める最も信頼性の高い方法であると考えられている。
特定のLMMで推定される各画像のグローバルな品質スコアを、最大後部推定を用いて効率的に集計することができる。
論文 参考訳(メタデータ) (2024-02-02T06:05:18Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。