論文の概要: MVQA-68K: A Multi-dimensional and Causally-annotated Dataset with Quality Interpretability for Video Assessment
- arxiv url: http://arxiv.org/abs/2509.11589v1
- Date: Mon, 15 Sep 2025 05:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.155591
- Title: MVQA-68K: A Multi-dimensional and Causally-annotated Dataset with Quality Interpretability for Video Assessment
- Title(参考訳): MVQA-68K:ビデオアセスメントのための品質解釈性を備えた多次元・因果アノテーション付きデータセット
- Authors: Yanyun Pu, Kehan Li, Zeyi Huang, Zhijie Zhong, Kaixiang Yang,
- Abstract要約: ビデオ品質アセスメント(VQA)は、事前トレーニングで使用する大規模データセットから高品質なビデオを選択する上で、ますます重要になっている。
MVQA-68Kは68,000以上の注意深い注釈付きビデオからなる新しい多次元VQAデータセットである。
実験により、MVQA-68KはVQAタスクにおける様々な大規模言語モデル(MLLM)の性能を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 14.705190484805962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of video generation models such as Sora, video quality assessment (VQA) is becoming increasingly crucial for selecting high-quality videos from large-scale datasets used in pre-training. Traditional VQA methods, typically producing single numerical scores, often lack comprehensiveness and interpretability. To address these challenges, we introduce MVQA-68K, a novel multi-dimensional VQA dataset comprising over 68,000 carefully annotated videos, covering seven essential quality dimensions: overall aesthetics, camera movement, dynamic degree, texture detail, composition, visual quality, and factual consistency. Each annotation includes detailed chain-of-thought reasoning to facilitate interpretability and comprehensive understanding. Extensive experiments demonstrate that MVQA-68K significantly enhances the performance of various multimodal large language models (MLLMs) on the VQA task, achieving state-of-the-art results not only on our internal test set (Fig.1) but also on public benchmarks including LSVQ-test, LSVQ-1080p, and LIVE-VQC. Meantime, incorporating explicit reasoning process during VQA training substantially boosts the zero-shot generalization. Code and dataset will be available at github: https://github.com/Controller01-ai/MVQA-68K
- Abstract(参考訳): Soraのようなビデオ生成モデルの急速な進歩に伴い、ビデオ品質評価(VQA)は、事前トレーニングに使用する大規模データセットから高品質なビデオを選択する上でますます重要になっている。
伝統的なVQA法は、通常は単一の数値スコアを生成するが、包括性と解釈性に欠けることが多い。
これらの課題に対処するために、MVQA-68Kは、68,000以上の注意深い注釈付きビデオからなる新しい多次元VQAデータセットを導入し、全体的な美学、カメラの動き、ダイナミックディテール、テクスチャディテール、構成、視覚的品質、事実整合性の7つの重要な品質次元をカバーした。
それぞれのアノテーションには、解釈可能性と包括的な理解を容易にするための詳細なチェーン・オブ・シント推論が含まれている。
MVQA-68Kは、VQAタスク上での様々なマルチモーダル大言語モデル(MLLM)の性能を著しく向上させ、内部テストセット(図1)だけでなく、LSVQ-test、LSVQ-1080p、LIVE-VQCといった公開ベンチマークでも最先端の結果が得られることを示した。
VQAトレーニング中に明確な推論プロセスを導入するということは、ゼロショットの一般化を大幅に加速させる。
コードとデータセットはgithubで利用可能になる。 https://github.com/Controller01-ai/MVQA-68K
関連論文リスト
- Q-CLIP: Unleashing the Power of Vision-Language Models for Video Quality Assessment through Unified Cross-Modal Adaptation [23.91894348449985]
VLM(Vision-Language Models)は、幅広い視覚タスクにまたがる顕著な一般化機能を示す。
ビデオ品質評価(VQA)のための完全なVLMベースのフレームワークQ-CLIPを提案する。
論文 参考訳(メタデータ) (2025-08-08T07:36:01Z) - Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。
我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。
既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - Video Quality Assessment: A Comprehensive Survey [55.734935003021576]
映像品質評価(VQA)は,映像の品質を知覚された品質の人間の判断と整合した方法で予測することを目的とした,重要な処理課題である。
本稿では,VQAアルゴリズムの開発における最近の進歩と,それらを実現するためのベンチマーク研究とデータベースについて述べる。
論文 参考訳(メタデータ) (2024-12-04T05:25:17Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models [71.06007696593704]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。