Fugu-MT 論文翻訳(概要): VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

論文の概要: VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

arxiv url: http://arxiv.org/abs/2603.12310v1
Date: Thu, 12 Mar 2026 18:00:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:11.696167
Title: VQQA: An Agentic Approach for Video Evaluation and Quality Improvement
Title（参考訳）: VQQA: 映像評価と品質改善のためのエージェント的アプローチ
Authors: Yiwen Song, Tomas Pfister, Yale Song,
Abstract要約: 本稿では,VQQA (Video Quality Question Answering) について述べる。 VQQAは、従来の受動的評価指標を人間解釈可能で行動可能なフィードバックに置き換える。本手法は, ベニラ生成に対するT2V-CompBenchの+11.57%, VBench2の+8.43%の絶対改善を実現する。
参考スコア（独自算出の注目度）: 36.312552904481414
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite rapid advancements in video generation models, aligning their outputs with complex user intent remains challenging. Existing test-time optimization methods are typically either computationally expensive or require white-box access to model internals. To address this, we present VQQA (Video Quality Question Answering), a unified, multi-agent framework generalizable across diverse input modalities and video generation tasks. By dynamically generating visual questions and using the resulting Vision-Language Model (VLM) critiques as semantic gradients, VQQA replaces traditional, passive evaluation metrics with human-interpretable, actionable feedback. This enables a highly efficient, closed-loop prompt optimization process via a black-box natural language interface. Extensive experiments demonstrate that VQQA effectively isolates and resolves visual artifacts, substantially improving generation quality in just a few refinement steps. Applicable to both text-to-video (T2V) and image-to-video (I2V) tasks, our method achieves absolute improvements of +11.57% on T2V-CompBench and +8.43% on VBench2 over vanilla generation, significantly outperforming state-of-the-art stochastic search and prompt optimization techniques.
Abstract（参考訳）: ビデオ生成モデルの急速な進歩にもかかわらず、出力を複雑なユーザー意図に合わせることは依然として困難である。既存のテスト時間最適化手法は通常、計算コストがかかるか、モデル内部へのホワイトボックスアクセスを必要とする。そこで本稿では,VQQA (Video Quality Question Answering, VQQA) について述べる。視覚的質問を動的に生成し、結果の視覚言語モデル(VLM)批判をセマンティックグラデーションとして使用することにより、VQQAは従来の受動的評価指標を人間の解釈可能な行動可能なフィードバックに置き換える。これにより、ブラックボックスの自然言語インタフェースを介して、高効率でクローズドループのプロンプト最適化プロセスが可能になる。大規模な実験により、VQQAは視覚的アーティファクトを効果的に分離し、解決し、わずか数ステップで生成品質を大幅に改善することを示した。テキスト・ツー・ビデオ・タスク(T2V)と画像・ビデオ・タスク(I2V)の両方に適用可能であり、本手法はVBench2によるT2V-CompBenchの+11.57%、VBench2による+8.43%の絶対的な改善を実現し、最先端の確率探索を著しく上回り、迅速な最適化技術を実現している。

関連論文リスト

VQ-Insight: Teaching VLMs for AI-Generated Video Quality Understanding via Progressive Visual Reinforcement Learning [21.35520258725298]
VQ-Insightは、AIGCビデオ品質評価のための新しい推論スタイルのフレームワークである。画像品質のウォームアップ、タスク固有の時間学習、およびビデオ生成モデルとの協調最適化を組み合わせる。選好比較、多次元スコア、自然なビデオスコアにおいて、最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-06-23T12:20:14Z)
Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文参考訳（メタデータ） (2025-05-06T15:29:32Z)
VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。 VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。 VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文参考訳（メタデータ） (2024-11-06T09:39:52Z)
LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文参考訳（メタデータ） (2024-08-26T04:29:52Z)
CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文参考訳（メタデータ） (2024-07-06T02:32:28Z)
Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文参考訳（メタデータ） (2024-03-18T16:52:49Z)
Capturing Co-existing Distortions in User-Generated Content for No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。 VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文参考訳（メタデータ） (2023-07-31T16:29:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。