論文の概要: PriorNet: Prior-Guided Engagement Estimation from Face Video
- arxiv url: http://arxiv.org/abs/2605.03615v1
- Date: Tue, 05 May 2026 10:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.897556
- Title: PriorNet: Prior-Guided Engagement Estimation from Face Video
- Title(参考訳): PriorNet:Face Videoによる事前誘導エンゲージメント推定
- Authors: Alexander Vedernikov,
- Abstract要約: パイプラインの3段階(前処理、モデル適応、客観的設計)でタスク関連事前処理を注入する事前ガイダンスフレームワークであるPresideerNetを提案する。
それぞれのデータセットのネイティブ評価プロトコルを用いて, EngageNet, DAiSEE, DREAMS, PAFE 上の PreorNet を評価する。
- 参考スコア(独自算出の注目度): 53.005382593686356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Engagement estimation from face video remains challenging because facial evidence is often incomplete, labeled data are limited, and engagement annotations are subjective. We present PriorNet, a prior-guided framework that injects task-relevant priors at three stages of the pipeline: preprocessing, model adaptation, and objective design. PriorNet converts face-detection failures into explicit zero-frame placeholders so that missing-face events remain represented in the input sequence, adapts a frozen Self-supervised Video Facial Affect Perceiver (SVFAP) backbone through a Prior-guided Low-Rank Adaptation module (Prior-LoRA) for parameter-efficient specialization, and trains with a Dirichlet-evidential, uncertainty-weighted objective under hard-label supervision. We evaluate PriorNet on EngageNet, DAiSEE, DREAMS, and PAFE using each dataset's native evaluation protocol. Across these benchmarks, PriorNet improves over the strongest listed prior reference within each dataset's evaluation framing, while component ablations on EngageNet and DAiSEE indicate that the gains arise from complementary contributions of preprocessing, adaptation, and objective-level priors. These results support explicit prior injection as a useful design principle for face-video engagement estimation under the benchmark conditions studied in this work.
- Abstract(参考訳): 顔画像からのエンゲージメント推定は、しばしば顔の証拠が不完全であり、ラベル付きデータが制限され、エンゲージメントアノテーションが主観的であるため、依然として困難である。
パイプラインの3段階(前処理、モデル適応、客観的設計)でタスク関連事前処理を注入する事前ガイダンスフレームワークであるPresideerNetを提案する。
PriorNetは、顔検出の失敗を明示的なゼロフレームプレースホルダーに変換して、入力シーケンスに欠落したイベントが残るようにし、パラメータ効率の高い特殊化のためにプレガイド付きローランク適応モジュール(Prior-LoRA)を介して、凍結した自己監督型ビデオファシアル効果知覚器(SVFAP)のバックボーンに適応し、ディリクレの明快で不確実性の重みを持つ列車をハードラベルで監視する。
それぞれのデータセットのネイティブ評価プロトコルを用いて, EngageNet, DAiSEE, DREAMS, PAFE 上の PreorNet を評価する。
これらのベンチマーク全体で、PreferNetはデータセットの評価フレーミングにおいて最上位に挙げられる事前参照よりも改善されている。一方、EngageNetとDAiSEEのコンポーネントの短縮は、前処理、適応、客観的な事前の補完的な貢献から得られるものであることを示している。
これらの結果は,本研究で検討したベンチマーク条件下での顔画像のエンゲージメント推定に有用な設計原理として,明示的な事前注入をサポートする。
関連論文リスト
- Learning 3D Reconstruction with Priors in Test Time [38.04707926304637]
本稿では,事前学習した画像のみのネットワークを再トレーニングしたり修正したりすることなく,3Dタスクを改善するための事前処理を組み込んだマルチビュートランスフォーマー(MVT)のテストタイムフレームワークを提案する。
提案手法は,ベースMVTよりも高いマージンで連続的に性能を向上する。
論文 参考訳(メタデータ) (2026-04-04T22:10:28Z) - ER-Pose: Rethinking Keypoint-Driven Representation Learning for Real-Time Human Pose Estimation [2.2248409468073143]
単一段階の多人数ポーズ推定は、人間の位置推定とキーポイント予測を共同で行うことを目的としている。
ボックス駆動単段ポーズ推定は、トレーニング中にバウンディングボックスの監督によって暗黙的に制限される。
本稿では,主予測目標に対するポーズ推定を高めるキーポイント駆動型学習パラダイムを提案する。
MS COCOとCrowdPoseでは、ER-Pose-nはプレトレーニングなしで3.2/6.7、プレトレーニングで7.4/4.9のAP改善を実現している。
論文 参考訳(メタデータ) (2026-03-09T17:49:46Z) - Revisiting Salient Object Detection from an Observer-Centric Perspective [48.99721284788945]
そこで我々は,視覚的手がかりだけでなく,その嗜好や意図など,観察者固有の要因を考慮し,有意な領域を予測できるオブザーバ中心の有意物体検出(OC-SOD)を提案する。
結果として、この定式化は本質的なあいまいさと人間の知覚の多様性を捉え、パーソナライズされ、文脈に合ったサリエンシの予測を可能にする。
論文 参考訳(メタデータ) (2026-02-06T03:53:01Z) - Understanding the Transfer Limits of Vision Foundation Models [38.99867932557529]
ファンデーションモデルは大規模な事前学習を利用して広範な知識を捉え、幅広い言語タスクにおける一般化を実証する。
この制限は、事前学習目標と下流の視覚・画像タスクの要求とのミスマッチから生じると仮定する。
一般的な視覚パターンの回復やグローバルな意味構造などのタスクに対する、マスク付き画像再構成や対照的な学習形状表現などの事前学習戦略。
以上の結果から,事前学習と下流作業の整合性は,最大平均偏差(MMD)などの単純な分散指標によって測定され,微調整前後の同一特徴間の相関が強く,性能改善と相関することが示唆された。
論文 参考訳(メタデータ) (2026-01-22T12:07:56Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。