論文の概要: Q-Router: Agentic Video Quality Assessment with Expert Model Routing and Artifact Localization
- arxiv url: http://arxiv.org/abs/2510.08789v2
- Date: Mon, 13 Oct 2025 16:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:09.836162
- Title: Q-Router: Agentic Video Quality Assessment with Expert Model Routing and Artifact Localization
- Title(参考訳): Q-Router:エキスパートモデルルーティングとアーティファクトローカライゼーションによるエージェントビデオ品質評価
- Authors: Shuo Xing, Soumik Dey, Mingyang Wu, Ashirbad Mishra, Naveen Ravipati, Binbin Li, Hansi Wu, Zhengzhong Tu,
- Abstract要約: ビデオアセスメント(VQA)は、人間の判断に沿った映像の品質を予測することを目的としている。
マルチ層ルーティングモデルシステムを用いた汎用VQAのためのエージェントフレームワークQ-C-Benchを提案する。
Q-C-ベンチは、様々なベンチマークで最先端のVQAモデルと一致または超え、一般化と解釈性を大幅に改善する。
- 参考スコア(独自算出の注目度): 14.141157176094737
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video quality assessment (VQA) is a fundamental computer vision task that aims to predict the perceptual quality of a given video in alignment with human judgments. Existing performant VQA models trained with direct score supervision suffer from (1) poor generalization across diverse content and tasks, ranging from user-generated content (UGC), short-form videos, to AI-generated content (AIGC), (2) limited interpretability, and (3) lack of extensibility to novel use cases or content types. We propose Q-Router, an agentic framework for universal VQA with a multi-tier model routing system. Q-Router integrates a diverse set of expert models and employs vision--language models (VLMs) as real-time routers that dynamically reason and then ensemble the most appropriate experts conditioned on the input video semantics. We build a multi-tiered routing system based on the computing budget, with the heaviest tier involving a specific spatiotemporal artifacts localization for interpretability. This agentic design enables Q-Router to combine the complementary strengths of specialized experts, achieving both flexibility and robustness in delivering consistent performance across heterogeneous video sources and tasks. Extensive experiments demonstrate that Q-Router matches or surpasses state-of-the-art VQA models on a variety of benchmarks, while substantially improving generalization and interpretability. Moreover, Q-Router excels on the quality-based question answering benchmark, Q-Bench-Video, highlighting its promise as a foundation for next-generation VQA systems. Finally, we show that Q-Router capably localizes spatiotemporal artifacts, showing potential as a reward function for post-training video generation models.
- Abstract(参考訳): 映像品質評価(VQA)は、人間の判断に従って映像の知覚品質を予測することを目的とした、基本的なコンピュータビジョンタスクである。
既存のパフォーマンスVQAモデルは,(1)ユーザ生成コンテンツ(UGC),ショートフォームビデオ(AIGC),(2)限定的な解釈可能性,(3)新規なユースケースやコンテンツタイプへの拡張性の欠如など,さまざまなコンテンツやタスクの一般化に苦慮している。
マルチ層モデルルーティングシステムを用いた汎用VQAのためのエージェントフレームワークQ-Routerを提案する。
Q-Routerは様々な専門家モデルを統合し、視覚言語モデル(VLM)を動的に推論し、入力ビデオセマンティクスに基づいて最も適切な専門家をアンサンブルするリアルタイムルータとして採用している。
計算予算をベースとした多層ルーティングシステムを構築し,特定時空間アーティファクトのローカライズによる解釈可能性の向上を図った。
このエージェント設計により、Q-Routerは専門専門家の相補的な強みを組み合わせ、異種ビデオソースやタスク間で一貫したパフォーマンスを実現するための柔軟性と堅牢性を両立させることができる。
広範囲な実験により、Q-Routerは様々なベンチマークで最先端のVQAモデルと一致し、また、一般化と解釈可能性を大幅に改善することを示した。
さらに、Q-Routerは品質ベースの質問応答ベンチマークであるQ-Bench-Videoを抜いて、次世代VQAシステムの基盤としての約束を強調している。
最後に、Q-Routerは時空間アーティファクトを有意に局所化し、トレーニング後のビデオ生成モデルに対する報酬関数としての可能性を示す。
関連論文リスト
- VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning [50.34205095371895]
映像品質評価は、知覚的品質劣化を客観的に定量化することを目的としている。
既存のVQAモデルには2つの限界がある。
推論に基づくVQAフレームワークである textbfVQAThinker を提案する。
論文 参考訳(メタデータ) (2025-08-08T06:16:23Z) - LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video
Quality Assessment [25.5501280406614]
近年,映像品質評価 (VQA) が注目されている。
大規模VQAデータセットのアノテートに大きな費用が、現在のディープラーニング手法の主な障害となっている。
Ada-DQA(Adaptive Diverse Quality-Aware Feature Acquisition)フレームワークは、望ましい品質関連の特徴を捉えるために提案されている。
論文 参考訳(メタデータ) (2023-08-01T16:04:42Z) - Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models [71.06007696593704]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z) - Hierarchical Conditional Relation Networks for Multimodal Video Question
Answering [67.85579756590478]
ビデオQAは、少なくとも2つの複雑さのレイヤを追加します。
条件付き関係ネットワーク(CRN)は、入力の関係を符号化する新しいオブジェクトのセットに変換するテンソルオブジェクトのセットを入力として取り込む。
その後、CRNはビデオQAに2つの形式で適用され、答えが視覚コンテンツからのみ推論されるショートフォームと、サブタイトルなどの関連情報が提示されるロングフォームである。
論文 参考訳(メタデータ) (2020-10-18T02:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。