論文の概要: rPPG-VQA: A Video Quality Assessment Framework for Unsupervised rPPG Training
- arxiv url: http://arxiv.org/abs/2604.11156v1
- Date: Mon, 13 Apr 2026 08:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.422668
- Title: rPPG-VQA: A Video Quality Assessment Framework for Unsupervised rPPG Training
- Title(参考訳): rPPG-VQA:教師なしrPPGトレーニングのためのビデオ品質評価フレームワーク
- Authors: Tianyang Dai, Ming Chang, Yan Chen, Yang Hu,
- Abstract要約: 教師なしリモートフォトプレソグラフィー(r)は、ラベルなしのビデオデータを活用することを約束するが、そのポテンシャルは重要な課題によって妨げられている。
本稿では,r-VQAのマルチモーダルビデオ適合性を評価するための新しいフレームワークであるr-VQAを提案する。
実験により,我々のフレームワークによってフィルタリングされた大規模「未使用」ビデオのトレーニングにより,標準ベンチマークの精度を大幅に向上する教師なしrモデルを開発できることが示されている。
- 参考スコア(独自算出の注目度): 7.772569910275165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised remote photoplethysmography (rPPG) promises to leverage unlabeled video data, but its potential is hindered by a critical challenge: training on low-quality "in-the-wild" videos severely degrades model performance. An essential step missing here is to assess the suitability of the videos for rPPG model learning before using them for the task. Existing video quality assessment (VQA) methods are mainly designed for human perception and not directly applicable to the above purpose. In this work, we propose rPPG-VQA, a novel framework for assessing video suitability for rPPG. We integrate signal-level and scene-level analyses and design a dual-branch assessment architecture. The signal-level branch evaluates the physiological signal quality of the videos via robust signal-to-noise ratio (SNR) estimation with a multi-method consensus mechanism, and the scene-level branch uses a multimodal large language model (MLLM) to identify interferences like motion and unstable lighting. Furthermore, we propose a two-stage adaptive sampling (TAS) strategy that utilizes the quality score to curate optimal training datasets. Experiments show that by training on large-scale, "in-the-wild" videos filtered by our framework, we can develop unsupervised rPPG models that achieve a substantial improvement in accuracy on standard benchmarks. Our code is available at https://github.com/Tianyang-Dai/rPPG-VQA.
- Abstract(参考訳): RPPG(unsupervised remote photoplethysmography)は、ラベルなしのビデオデータを活用することを約束するが、その可能性には重要な課題がある。
ここで欠落している重要なステップは、タスクに使用する前にrPPGモデル学習のためのビデオの適合性を評価することである。
既存の映像品質評価法(VQA)は主に人間の知覚のために設計されており、上記の目的に直接当てはまらない。
本稿では,rPPGの映像適合性を評価する新しいフレームワークであるrPPG-VQAを提案する。
信号レベルとシーンレベルの分析を統合し、デュアルブランチアセスメントアーキテクチャを設計する。
信号レベルブランチは、マルチメタルコンセンサス機構を用いて、ロバスト信号対雑音比(SNR)推定により、映像の生理的信号品質を評価し、シーンレベルブランチは、マルチモーダル大言語モデル(MLLM)を使用して、動きや不安定な照明などの干渉を識別する。
さらに,品質スコアを用いて最適なトレーニングデータセットをキュレートする2段階適応サンプリング(TAS)戦略を提案する。
実験により、我々のフレームワークによってフィルタリングされた大規模「未使用」ビデオのトレーニングにより、標準ベンチマークの精度を大幅に向上させる、教師なしrPPGモデルを開発することができることが示された。
私たちのコードはhttps://github.com/Tianyang-Dai/rPPG-VQA.comで公開されています。
関連論文リスト
- Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。
データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。
品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:00:21Z) - CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video [9.172799792564009]
本稿では,大規模モデルの意味理解機能を活用した新しいNR-VQAフレームワークであるCAMP-VQAを提案する。
本手法では,フレーム間変動から抽出したキーフラグメントを統合する品質対応ビデオメタデータ機構を提案する。
我々のモデルは既存のNR-VQA法を一貫して上回り、手作業の細かいアノテーションを使わずに精度の向上を実現している。
論文 参考訳(メタデータ) (2025-11-10T16:37:47Z) - OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。
我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。
OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文 参考訳(メタデータ) (2025-10-12T13:46:28Z) - Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。
支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment [17.85550556489256]
本稿では,Blind Video Quality Assessment (DVLTA-VQA) のためのテキストガイド適応を用いたデカップリング型視覚言語モデルを提案する。
ビデオベーステンポラルCLIPモジュールは、時間的ダイナミクスを明示的にモデル化し、背側ストリームと整合して運動知覚を高める。
時間的コンテキストモジュールは、フレーム間の依存関係を洗練し、モーションモデリングをさらに改善するために開発されている。
最後に、空間情報と時間情報のより効果的な統合を可能にするために、テキスト誘導型適応融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-16T03:20:28Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z) - Regression or Classification? New Methods to Evaluate No-Reference
Picture and Video Quality Models [45.974399400141685]
粗いレベルでの非参照品質モデルの評価と比較のための2つの新しい手法を提案する。
我々は、最近の画像とビデオの品質データセットに基づいて、人気のあるノン参照品質モデルのベンチマーク実験を行う。
論文 参考訳(メタデータ) (2021-01-30T05:40:14Z) - Study on the Assessment of the Quality of Experience of Streaming Video [117.44028458220427]
本稿では,ストリーミング映像のQoEの主観的推定に対する様々な客観的要因の影響について検討する。
本論文では標準的および手作り的特徴を示し,その相関とp値を示す。
SQoE-IIIデータベースは、これまでで最大の、そして最も現実的なデータベースだ。
論文 参考訳(メタデータ) (2020-12-08T18:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。