Fugu-MT 論文翻訳(概要): Q-Boost: On Visual Quality Assessment Ability of Low-level Multi-Modality Foundation Models

論文の概要: Q-Boost: On Visual Quality Assessment Ability of Low-level Multi-Modality Foundation Models

arxiv url: http://arxiv.org/abs/2312.15300v1
Date: Sat, 23 Dec 2023 17:02:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 18:36:29.307091
Title: Q-Boost: On Visual Quality Assessment Ability of Low-level Multi-Modality Foundation Models
Title（参考訳）: q-boost:低レベルマルチモダリティ基礎モデルの視覚品質評価能力について
Authors: Zicheng Zhang, Haoning Wu, Zhongpeng Ji, Chunyi Li, Erli Zhang, Wei Sun, Xiaohong Liu, Xiongkuo Min, Fengyu Sun, Shangling Jui, Weisi Lin, Guangtao Zhai
Abstract要約: 画像品質評価(IQA)および映像品質評価(VQA)タスクにおける低レベルMLLMの強化を目的とした戦略であるQ-Boostを紹介する。 Q-Boostは$neutral$プロンプトを通じてミドルグラウンドのアプローチを導入し、よりバランスよく詳細な評価を可能にする。実験の結果,低レベルMLLMはQ-Boost戦略を備えたIQA/VQAタスクに優れたゼロショット性能を示した。
参考スコア（独自算出の注目度）: 80.79438689784958
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in Multi-modality Large Language Models (MLLMs) have demonstrated remarkable capabilities in complex high-level vision tasks. However, the exploration of MLLM potential in visual quality assessment, a vital aspect of low-level vision, remains limited. To address this gap, we introduce Q-Boost, a novel strategy designed to enhance low-level MLLMs in image quality assessment (IQA) and video quality assessment (VQA) tasks, which is structured around two pivotal components: 1) Triadic-Tone Integration: Ordinary prompt design simply oscillates between the binary extremes of $positive$ and $negative$. Q-Boost innovates by incorporating a `middle ground' approach through $neutral$ prompts, allowing for a more balanced and detailed assessment. 2) Multi-Prompt Ensemble: Multiple quality-centric prompts are used to mitigate bias and acquire more accurate evaluation. The experimental results show that the low-level MLLMs exhibit outstanding zeros-shot performance on the IQA/VQA tasks equipped with the Q-Boost strategy.
Abstract（参考訳）: MLLM(Multi-modality Large Language Models)の最近の進歩は、複雑な高次視覚タスクにおいて顕著な能力を示している。しかし、低レベルの視力の重要な側面である視覚品質評価におけるMLLMの可能性の探索は依然として限られている。このギャップに対処するために,画像品質評価(iqa)と映像品質評価(vqa)タスクにおける低レベルmllmを強化するために設計された新しい戦略であるq-boostを紹介する。 1) Triadic-Tone Integration: 通常のプロンプト設計は、単に$ positive$ と $ negative$ のバイナリ極端の間で振動する。 Q-Boostは$neutral$プロンプトを通じて‘ミドルグラウンド’アプローチを導入し、よりバランスよく詳細な評価を可能にする。 2)マルチプロンプト・アンサンブル:複数の品質中心のプロンプトを用いてバイアスを緩和し,より正確な評価を得る。実験の結果,低レベルMLLMはQ-Boost戦略を備えたIQA/VQAタスクに優れたゼロショット性能を示した。

関連論文リスト

Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2025-03-28T17:59:54Z)
SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models [38.739880143262845]
我々は,MLLMが自然言語の短い質問に答える事実性を評価するための,最初の総合的なベンチマークであるSimpleVQAを紹介する。 SimpleVQAは、複数のタスクと複数のシナリオをカバーすること、高品質で挑戦的なクエリを保証すること、静的でタイムレスな参照回答を維持すること、そして評価しやすいこと、の6つの重要な特徴によって特徴付けられる。
論文参考訳（メタデータ） (2025-02-18T17:04:26Z)
VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。 VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。 VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文参考訳（メタデータ） (2024-11-06T09:39:52Z)
LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文参考訳（メタデータ） (2024-08-26T04:29:52Z)
Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-14T16:32:11Z)
2AFC Prompting of Large Multimodal Models for Image Quality Assessment [38.86162365208038]
2-alternative forced choice (2AFC) は視覚的品質に関する人間の意見を集める最も信頼性の高い方法であると考えられている。特定のLMMで推定される各画像のグローバルな品質スコアを、最大後部推定を用いて効率的に集計することができる。
論文参考訳（メタデータ） (2024-02-02T06:05:18Z)
Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。 Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文参考訳（メタデータ） (2023-09-25T14:43:43Z)
Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文参考訳（メタデータ） (2023-03-18T09:04:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。