Fugu-MT 論文翻訳(概要): Analytic Score Optimization for Multi Dimension Video Quality Assessment

論文の概要: Analytic Score Optimization for Multi Dimension Video Quality Assessment

arxiv url: http://arxiv.org/abs/2602.16856v1
Date: Wed, 18 Feb 2026 20:34:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-20 15:21:28.395145
Title: Analytic Score Optimization for Multi Dimension Video Quality Assessment
Title（参考訳）: 多次元映像品質評価のための分析スコア最適化
Authors: Boda Lin, Yongjie Zhu, Wenyu Qin, Meng Wang, Pengfei Wan,
Abstract要約: 本稿では,5つの重要な品質次元にアノテートされた多様なユーザ生成コンテンツ(UGC)を含む大規模多次元VQAデータセットを提案する。データセット内の各ビデオは、これらの次元で3人以上のラッカーによってスコアされ、微粒なサブ属性ラベルが付けられます。解析スコア最適化(ASO)は,多次元VQAから導出される学習後目標である。
参考スコア（独自算出の注目度）: 14.857118087904206
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video Quality Assessment (VQA) is evolving beyond single-number mean opinion score toward richer, multi-faceted evaluations of video content. In this paper, we present a large-scale multi-dimensional VQA dataset UltraVQA that encompasses diverse User-Generated Content~(UGC) annotated across five key quality dimensions: Motion Quality, Motion Amplitude, Aesthetic Quality, Content Quality, and Clarity Quality. Each video in our dataset is scored by over 3 human raters on these dimensions, with fine-grained sub-attribute labels, and accompanied by an explanatory rationale generated by GPT based on the collective human judgments. To better leverage these rich annotations and improve discrete quality score assessment, we introduce Analytic Score Optimization (ASO), a theoretically grounded post-training objective derived for multi-dimensional VQA. By reframing quality assessment as a regularized decision-making process, we obtain a closed-form solution that naturally captures the ordinal nature of human ratings, ensuring alignment with human ranking preferences. In experiments, our method outperforms most baselines including closed-source APIs and open-source models, while also reducing mean absolute error (MAE) in quality prediction. Our work highlights the importance of multi-dimensional, interpretable annotations and reinforcement-based alignment in advancing video quality assessment.
Abstract（参考訳）: ビデオ品質評価(VQA)は、ビデオコンテンツのよりリッチで多面的な評価に向けて、単一の数字平均評価スコアを超えて進化している。本稿では、動作品質、運動振幅、美的品質、コンテンツ品質、明度品質の5つの主要な品質次元にアノテートされた多様なユーザ生成コンテンツ~(UGC)を含む、大規模多次元VQAデータセットUltraVQAを提案する。データセット内の各ビデオは、これらの次元で3人以上のラテンダーによってスコアされ、細粒度のサブ属性ラベルが付けられ、GPTによって生成された説明的根拠が伴う。これらのリッチアノテーションをより活用し、離散的な品質スコア評価を改善するために、多次元VQAから導出される理論的に基礎付けられたポストトレーニング対象であるASO(Analytic Score Optimization)を導入する。品質評価を正規化意思決定プロセスとして再考することにより、人間の格付けの常態性を自然に捉え、人間の格付けの嗜好と整合性を確保するクローズドフォームのソリューションを得る。実験では、クローズドソースAPIやオープンソースモデルなど、ほとんどのベースラインよりも優れており、品質予測における平均絶対誤差(MAE)も低減している。本研究は,映像品質評価における多次元・解釈可能なアノテーションと強化に基づくアライメントの重要性を強調した。

関連論文リスト

Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文参考訳（メタデータ） (2025-11-24T07:00:21Z)
CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video [9.172799792564009]
本稿では,大規模モデルの意味理解機能を活用した新しいNR-VQAフレームワークであるCAMP-VQAを提案する。本手法では,フレーム間変動から抽出したキーフラグメントを統合する品質対応ビデオメタデータ機構を提案する。我々のモデルは既存のNR-VQA法を一貫して上回り、手作業の細かいアノテーションを使わずに精度の向上を実現している。
論文参考訳（メタデータ） (2025-11-10T16:37:47Z)
EVQAScore: A Fine-grained Metric for Video Question Answering Data Quality Evaluation [21.797332686137203]
本稿では,ビデオキャプションとビデオQAデータ品質の両方を評価するためにキーワード抽出を利用する参照フリー手法EVQAScoreを紹介する。提案手法は,Kendall相関32.8,Spearman相関42.3,従来のPAC-S++よりも4.7,5.9,動画キャプション評価5.9)。データ選択にEVQAScoreを用いることで、元のデータボリュームのわずか12.5%でSOTA結果を達成し、以前のSOTA手法であるPAC-Sと100%のデータより優れていた。
論文参考訳（メタデータ） (2024-11-11T12:11:36Z)
VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。 VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。 VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文参考訳（メタデータ） (2024-11-06T09:39:52Z)
Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文参考訳（メタデータ） (2024-07-31T07:54:26Z)
Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。 Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文参考訳（メタデータ） (2024-07-24T06:42:46Z)
Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文参考訳（メタデータ） (2023-05-22T05:20:23Z)
Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。 BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文参考訳（メタデータ） (2023-04-28T08:06:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。