論文の概要: VQA$^2$:Visual Question Answering for Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2411.03795v1
- Date: Wed, 06 Nov 2024 09:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:26.773967
- Title: VQA$^2$:Visual Question Answering for Video Quality Assessment
- Title(参考訳): VQA$^2$:Visual Question Answering for Video Quality Assessment
- Authors: Ziheng Jia, Zicheng Zhang, Jiaying Qian, Haoning Wu, Wei Sun, Chunyi Li, Xiaohong Liu, Weisi Lin, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: ビデオ品質アセスメントは、もともとは定量的ビデオ品質アセスメントに重点を置いていた。
現在は、より包括的な視覚的品質理解タスクへと進化している。
本稿では,映像品質評価に焦点をあてた視覚的質問応答指導データセットについて紹介する。
映像品質評価と映像品質理解の両課題について広範な実験を行った。
- 参考スコア(独自算出の注目度): 76.81110038738699
- License:
- Abstract: The advent and proliferation of large multi-modal models (LMMs) have introduced a new paradigm to video-related computer vision fields, including training and inference methods based on visual question answering (VQA). These methods enable models to handle multiple downstream tasks robustly. Video Quality Assessment (VQA), a classic field in low-level visual quality evaluation, originally focused on quantitative video quality scoring. However, driven by advances in LMMs, it is now evolving towards more comprehensive visual quality understanding tasks. Visual question answering has significantly improved low-level visual evaluation within the image domain recently. However, related work is almost nonexistent in the video domain, leaving substantial room for improvement. To address this gap, we introduce the VQA2 Instruction Dataset the first visual question answering instruction dataset entirely focuses on video quality assessment, and based on it, we propose the VQA2 series models The VQA2 Instruction Dataset consists of three stages and covers various video types, containing 157,735 instruction question-answer pairs, including both manually annotated and synthetic data. We conduct extensive experiments on both video quality scoring and video quality understanding tasks. Results demonstrate that the VQA2 series models achieve state-of-the-art (SOTA) performance in quality scoring tasks, and their performance in visual quality question answering surpasses the renowned GPT-4o. Additionally, our final model, the VQA2-Assistant, performs well across both scoring and question-answering tasks, validating its versatility.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の出現と普及は、視覚的質問応答(VQA)に基づくトレーニングや推論手法を含む、ビデオ関連コンピュータビジョン分野に新しいパラダイムを導入している。
これらの手法により、モデルは複数の下流タスクを堅牢に処理できる。
ビデオ品質評価(VQA: Video Quality Assessment)は、低レベルの視覚的品質評価の古典的な分野である。
しかし、LMMの進歩により、より包括的な視覚的品質理解タスクへと進化しつつある。
視覚的質問応答は、最近画像領域内の低レベル視覚評価を大幅に改善した。
しかし、関連する作業はほとんどビデオ領域に存在せず、改善の余地は残されている。
このギャップに対処するため,VQA2 Instruction Datasetを導入した。VQA2 Instruction Datasetはビデオ品質評価に完全に焦点を合わせ,VQA2シリーズモデルを提案し,VQA2 Instruction Datasetは3つのステージから構成され,手動で注釈付きデータと合成データの両方を含む157,735の質問応答対を含む様々なビデオタイプをカバーする。
映像品質評価と映像品質理解の両課題について広範な実験を行った。
以上の結果から,VQA2シリーズは品質評価タスクにおけるSOTA(State-of-the-art)性能を達成し,視覚品質質問応答性能はGPT-4oを上回った。
さらに、最終モデルであるVQA2-Assistantは、スコアリングタスクと質問応答タスクの両方でうまく機能し、その汎用性を検証する。
関連論文リスト
- LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。
我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。
本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video
Quality Assessment [25.5501280406614]
近年,映像品質評価 (VQA) が注目されている。
大規模VQAデータセットのアノテートに大きな費用が、現在のディープラーニング手法の主な障害となっている。
Ada-DQA(Adaptive Diverse Quality-Aware Feature Acquisition)フレームワークは、望ましい品質関連の特徴を捉えるために提案されている。
論文 参考訳(メタデータ) (2023-08-01T16:04:42Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。