論文の概要: LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2408.14008v1
- Date: Mon, 26 Aug 2024 04:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 15:02:44.432784
- Title: LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models
- Title(参考訳): LMM-VQA:大規模マルチモーダルモデルによる映像品質評価の改善
- Authors: Qihang Ge, Wei Sun, Yu Zhang, Yunhao Li, Zhongpeng Ji, Fengyu Sun, Shangling Jui, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
- 参考スコア(独自算出の注目度): 53.64461404882853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The explosive growth of videos on streaming media platforms has underscored the urgent need for effective video quality assessment (VQA) algorithms to monitor and perceptually optimize the quality of streaming videos. However, VQA remains an extremely challenging task due to the diverse video content and the complex spatial and temporal distortions, thus necessitating more advanced methods to address these issues. Nowadays, large multimodal models (LMMs), such as GPT-4V, have exhibited strong capabilities for various visual understanding tasks, motivating us to leverage the powerful multimodal representation ability of LMMs to solve the VQA task. Therefore, we propose the first Large Multi-Modal Video Quality Assessment (LMM-VQA) model, which introduces a novel spatiotemporal visual modeling strategy for quality-aware feature extraction. Specifically, we first reformulate the quality regression problem into a question and answering (Q&A) task and construct Q&A prompts for VQA instruction tuning. Then, we design a spatiotemporal vision encoder to extract spatial and temporal features to represent the quality characteristics of videos, which are subsequently mapped into the language space by the spatiotemporal projector for modality alignment. Finally, the aligned visual tokens and the quality-inquired text tokens are aggregated as inputs for the large language model (LLM) to generate the quality score and level. Extensive experiments demonstrate that LMM-VQA achieves state-of-the-art performance across five VQA benchmarks, exhibiting an average improvement of $5\%$ in generalization ability over existing methods. Furthermore, due to the advanced design of the spatiotemporal encoder and projector, LMM-VQA also performs exceptionally well on general video understanding tasks, further validating its effectiveness. Our code will be released at https://github.com/Sueqk/LMM-VQA.
- Abstract(参考訳): ストリーミングメディアプラットフォームにおけるビデオの爆発的な成長は、ストリーミングビデオの品質をモニターし、知覚的に最適化する効果的なビデオ品質アセスメント(VQA)アルゴリズムが緊急に必要であることを示している。
しかしながら、VQAは多様なビデオコンテンツと複雑な空間的・時間的歪みのため、これらの問題に対処するより高度な手法を必要とするため、非常に困難な課題である。
近年, GPT-4V のような大規模マルチモーダルモデル (LMM) は, 様々な視覚的理解タスクに強力な能力を示し, VQA タスクの解決に LMM の強力なマルチモーダル表現能力を活用する動機となっている。
そこで我々は,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
具体的には、まず品質回帰問題を質問・回答(Q&A)タスクに再構成し、VQA命令チューニングのためのQ&Aプロンプトを構築する。
そして,空間的特徴と時間的特徴を抽出してビデオの品質特性を表現した時空間視覚エンコーダを設計し,その後,時空間プロジェクタによって言語空間にマッピングしてモダリティアライメントを行う。
最後に、大言語モデル(LLM)の入力として、整列された視覚トークンと品質問合せされたテキストトークンを集約し、品質スコアとレベルを生成する。
大規模な実験により、LMM-VQAは5つのVQAベンチマークにまたがって最先端のパフォーマンスを達成し、既存の手法よりも平均5\%の一般化能力の向上を示した。
さらに、時空間エンコーダとプロジェクタの高度な設計により、LMM-VQAは一般的な映像理解タスクでも非常によく機能し、その効果を検証している。
私たちのコードはhttps://github.com/Sueqk/LMM-VQA.comでリリースされます。
関連論文リスト
- AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs [76.15356325947731]
ビデオ品質の識別におけるLMMの習熟度を評価するための新しいベンチマークであるQ-Bench-Videoを紹介する。
2,378組の質問応答ペアを収集し、12のオープンソースと5のプロプライエタリなLMMでテストする。
以上の結果から,LMMは映像品質の基本的な理解を保ちつつも,その性能は不完全かつ不正確であり,人的性能に比較して顕著な相違があることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T08:05:00Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - MRET: Multi-resolution Transformer for Video Quality Assessment [37.355412115794195]
ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。
現在、大量のビデオは720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオに対して高周波の詳細を欠いている。
本稿では,高分解能な品質情報を保存するトランスフォーマーベースのNR-VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T21:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。