論文の概要: Bridging Video Quality Scoring and Justification via Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2506.21011v1
- Date: Thu, 26 Jun 2025 05:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.985409
- Title: Bridging Video Quality Scoring and Justification via Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルによる映像品質のブリッジと正当化
- Authors: Qizhi Xie, Kun Yuan, Yunpeng Qu, Jiachao Gong, Mingda Wu, Ming Sun, Chao Zhou, Jihong Zhu,
- Abstract要約: 古典的映像品質評価法(VQA)は、映像の視覚的忠実さと明瞭さを判断する数値スコアを生成する。
しかし、スコアはビデオの複雑な品質の次元を表現できず、適用性を制限する。
言語出力から恩恵を受け、ビデオ大マルチモーダルモデル(LMM)を命令チューニングによりVQAに適応させることは、この問題に対処する可能性がある。
- 参考スコア(独自算出の注目度): 14.166920184033463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical video quality assessment (VQA) methods generate a numerical score to judge a video's perceived visual fidelity and clarity. Yet, a score fails to describe the video's complex quality dimensions, restricting its applicability. Benefiting from the linguistic output, adapting video large multimodal models (LMMs) to VQA via instruction tuning has the potential to address this issue. The core of the approach lies in the video quality-centric instruction data. Previous explorations mainly focus on the image domain, and their data generation processes heavily rely on human quality annotations and proprietary systems, limiting data scalability and effectiveness. To address these challenges, we propose the Score-based Instruction Generation (SIG) pipeline. Specifically, SIG first scores multiple quality dimensions of an unlabeled video and maps scores to text-defined levels. It then explicitly incorporates a hierarchical Chain-of-Thought (CoT) to model the correlation between specific dimensions and overall quality, mimicking the human visual system's reasoning process. The automated pipeline eliminates the reliance on expert-written quality descriptions and proprietary systems, ensuring data scalability and generation efficiency. To this end, the resulting Score2Instruct (S2I) dataset contains over 320K diverse instruction-response pairs, laying the basis for instruction tuning. Moreover, to advance video LMMs' quality scoring and justification abilities simultaneously, we devise a progressive tuning strategy to fully unleash the power of S2I. Built upon SIG, we further curate a benchmark termed S2I-Bench with 400 open-ended questions to better evaluate the quality justification capacity of video LMMs. Experimental results on the S2I-Bench and existing benchmarks indicate that our method consistently improves quality scoring and justification capabilities across multiple video LMMs.
- Abstract(参考訳): 古典的映像品質評価法(VQA)は、映像の視覚的忠実さと明瞭さを判断する数値スコアを生成する。
しかし、スコアはビデオの複雑な品質の次元を記述するのに失敗し、適用性を制限する。
言語出力から恩恵を受け、ビデオ大マルチモーダルモデル(LMM)を命令チューニングによりVQAに適応させることは、この問題に対処する可能性がある。
このアプローチのコアは、ビデオの品質中心のインストラクションデータにある。
以前の調査は主に画像領域に焦点を当てており、そのデータ生成プロセスは人間の品質のアノテーションやプロプライエタリなシステムに大きく依存しており、データのスケーラビリティと有効性を制限している。
これらの課題に対処するため,Score-based Instruction Generation (SIG) パイプラインを提案する。
具体的には、SIGはまずラベルのないビデオの複数の品質次元をスコアし、スコアをテキスト定義レベルにマップする。
次に、特定の次元と全体的な品質の相関をモデル化し、人間の視覚システムの推論プロセスを模倣するために、階層的なCoT(Chain-of-Thought)を明示的に組み込む。
自動パイプラインは、専門家による品質記述やプロプライエタリなシステムへの依存をなくし、データのスケーラビリティと生成効率を確保する。
この目的のために、結果のScore2Instruct (S2I)データセットには320万以上の多様な命令応答ペアが含まれており、命令チューニングの基礎となっている。
さらに,ビデオLMMの品質評価と正当化能力を同時に進めるために,S2Iのパワーを完全に解き放つプログレッシブチューニング戦略を考案した。
SIGをベースとしたS2I-Benchというベンチマークを400のオープンエンド質問で検証し,ビデオLMMの品質正当性を評価する。
S2I-Bench および既存のベンチマークによる実験結果から,本手法は複数のビデオ LMM における品質評価と正当性の向上に一貫して寄与することが示された。
関連論文リスト
- VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation [23.701884816475403]
ビデオキャプションは、テキストからビデオへの生成タスクにおいて重要な役割を果たす。
既存のベンチマークでは、きめ細かい評価が不十分である。
細粒度ビデオキャプション評価ベンチマーク(VCapsBench)を紹介する。
論文 参考訳(メタデータ) (2025-05-29T14:34:25Z) - Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。
我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。
既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。
主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。
我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。
本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - KVQ: Kwai Video Quality Assessment for Short-form Videos [24.5291786508361]
我々は,600本のユーザアップロードショートビデオと3600本のプロセッシングビデオからなる,最初の大規模KVQ(Kleidoscope short Video database for Quality Assessment)を構築した。
そこで我々は,KSVQEというビデオ品質評価装置を提案する。これにより,品質決定セマンティクスを大規模視覚言語モデルの内容理解とともに識別することができる。
論文 参考訳(メタデータ) (2024-02-11T14:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。