論文の概要: VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.18564v1
- Date: Mon, 23 Jun 2025 12:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.972106
- Title: VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning
- Title(参考訳): VQ-Insight: プログレッシブ・ビジュアル強化学習によるAI生成ビデオ品質理解のためのVLM教育
- Authors: Xuanyu Zhang, Weiqi Li, Shijie Zhao, Junlin Li, Li Zhang, Jian Zhang,
- Abstract要約: VQ-Insightは、AIGCビデオ品質評価のための新しい推論スタイルのフレームワークである。
画像品質のウォームアップ、タスク固有の時間学習、およびビデオ生成モデルとの協調最適化を組み合わせる。
選好比較、多次元スコア、自然なビデオスコアにおいて、最先端のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 21.35520258725298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in AI-generated content (AIGC) have led to the emergence of powerful text-to-video generation models. Despite these successes, evaluating the quality of AIGC-generated videos remains challenging due to limited generalization, lack of temporal awareness, heavy reliance on large-scale annotated datasets, and the lack of effective interaction with generation models. Most current approaches rely on supervised finetuning of vision-language models (VLMs), which often require large-scale annotated datasets and tend to decouple understanding and generation. To address these shortcomings, we propose VQ-Insight, a novel reasoning-style VLM framework for AIGC video quality assessment. Our approach features: (1) a progressive video quality learning scheme that combines image quality warm-up, general task-specific temporal learning, and joint optimization with the video generation model; (2) the design of multi-dimension scoring rewards, preference comparison rewards, and temporal modeling rewards to enhance both generalization and specialization in video quality evaluation. Extensive experiments demonstrate that VQ-Insight consistently outperforms state-of-the-art baselines in preference comparison, multi-dimension scoring, and natural video scoring, bringing significant improvements for video generation tasks.
- Abstract(参考訳): AI生成コンテンツ(AIGC)の最近の進歩は、強力なテキスト・ビデオ生成モデルの出現につながっている。
これらの成功にもかかわらず、AIGC生成ビデオの品質評価は、限定的な一般化、時間的認識の欠如、大規模な注釈付きデータセットへの強い依存、生成モデルとの効果的な相互作用の欠如など、依然として困難である。
現在のアプローチのほとんどは、大規模な注釈付きデータセットを必要とすることが多く、理解と生成を分離する傾向がある視覚言語モデルの教師付き微調整(VLM)に依存している。
これらの欠点に対処するために、AIGCビデオ品質評価のための新しい推論スタイルのVLMフレームワークであるVQ-Insightを提案する。
提案手法は,(1)画像品質のウォームアップ,一般タスク固有の時間的学習,および映像生成モデルとの協調最適化を組み合わせたプログレッシブな映像品質学習手法,(2)多次元スコアリング報酬,選好比較報酬,および時間的モデリング報酬の設計により,映像品質評価における一般化と特殊化の両立を図ったものである。
大規模な実験により、VQ-Insightは、選好比較、多次元スコア、自然なビデオスコアにおいて、最先端のベースラインを一貫して上回り、ビデオ生成タスクに大幅な改善をもたらすことが示された。
関連論文リスト
- Towards Holistic Visual Quality Assessment of AI-Generated Videos: A LLM-Based Multi-Dimensional Evaluation Model [8.866376599966353]
我々はAIGVの視覚的品質を、技術品質、運動品質、ビデオ意味論の3つの次元に分解する。
様々な視覚・言語タスクにおける大規模言語モデル(LLM)の卓越した性能を考慮すると,LLMを品質回帰モジュールとして導入する。
NTIRE 2025 Quality Assessment of AI-Generated Content Challenge において,提案手法はtextbfsecond を達成した。
論文 参考訳(メタデータ) (2025-06-05T07:40:12Z) - Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。
我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。
既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。
主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。
我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。
本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。