論文の概要: Learning Perceptual Representations for Gaming NR-VQA with Multi-Task FR Signals
- arxiv url: http://arxiv.org/abs/2602.11903v1
- Date: Thu, 12 Feb 2026 12:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.818004
- Title: Learning Perceptual Representations for Gaming NR-VQA with Multi-Task FR Signals
- Title(参考訳): マルチタスクFR信号を用いたNR-VQAゲーミングにおける知覚表現の学習
- Authors: Yu-Chih Chen, Michael Wang, Chieh-Dun Wen, Kai-Siang Ma, Avinab Saha, Li-Heng Chen, Alan Bovik,
- Abstract要約: ゲームビデオの非参照ビデオ品質評価(NR-VQA)は、制限された人格データセットとユニークなコンテンツ特性のために困難である。
本稿では,マルチタスク学習フレームワークであるMTL-VQAについて述べる。
- 参考スコア(独自算出の注目度): 11.586349688474753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: No-reference video quality assessment (NR-VQA) for gaming videos is challenging due to limited human-rated datasets and unique content characteristics including fast motion, stylized graphics, and compression artifacts. We present MTL-VQA, a multi-task learning framework that uses full-reference metrics as supervisory signals to learn perceptually meaningful features without human labels for pretraining. By jointly optimizing multiple full-reference (FR) objectives with adaptive task weighting, our approach learns shared representations that transfer effectively to NR-VQA. Experiments on gaming video datasets show MTL-VQA achieves performance competitive with state-of-the-art NR-VQA methods across both MOS-supervised and label-efficient/self-supervised settings.
- Abstract(参考訳): ゲームビデオの非参照ビデオ品質評価(NR-VQA)は、人間の評価データセットの制限と、高速モーション、スタイリングされたグラフィック、圧縮アーティファクトなどのユニークなコンテンツ特性のために困難である。
本稿では,マルチタスク学習フレームワークであるMTL-VQAについて述べる。
適応的なタスク重み付けにより複数の全参照目標を協調的に最適化することにより,NR-VQAに効率的に移行する共有表現を学習する。
ゲームビデオデータセットの実験では、MTL-VQAは、最先端のNR-VQAメソッドとMOS管理とラベル効率/自己管理の両方で競合する性能を発揮する。
関連論文リスト
- CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video [9.172799792564009]
本稿では,大規模モデルの意味理解機能を活用した新しいNR-VQAフレームワークであるCAMP-VQAを提案する。
本手法では,フレーム間変動から抽出したキーフラグメントを統合する品質対応ビデオメタデータ機構を提案する。
我々のモデルは既存のNR-VQA法を一貫して上回り、手作業の細かいアノテーションを使わずに精度の向上を実現している。
論文 参考訳(メタデータ) (2025-11-10T16:37:47Z) - Q-CLIP: Unleashing the Power of Vision-Language Models for Video Quality Assessment through Unified Cross-Modal Adaptation [33.51239538610773]
VLM(Vision-Language Models)は、幅広い視覚タスクにまたがる顕著な一般化機能を示す。
ビデオ品質評価(VQA)のための完全なVLMベースのフレームワークQ-CLIPを提案する。
論文 参考訳(メタデータ) (2025-08-08T07:36:01Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。
支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。