論文の概要: ProSkill: Segment-Level Skill Assessment in Procedural Videos
- arxiv url: http://arxiv.org/abs/2601.20661v1
- Date: Wed, 28 Jan 2026 14:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.98044
- Title: ProSkill: Segment-Level Skill Assessment in Procedural Videos
- Title(参考訳): ProSkill: 手続きビデオにおけるセグメンテーションレベルスキルアセスメント
- Authors: Michele Mazzamuto, Daniele Di Mauro, Gianpiero Francesca, Giovanni Maria Farinella, Antonino Furnari,
- Abstract要約: ProSkillは、手続きタスクにおけるアクションレベルのスキルアセスメントのための最初のベンチマークデータセットである。
私たちはデータセットを使用して、最先端のスキルアセスメントアルゴリズムをベンチマークします。
- 参考スコア(独自算出の注目度): 25.82207413553515
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Skill assessment in procedural videos is crucial for the objective evaluation of human performance in settings such as manufacturing and procedural daily tasks. Current research on skill assessment has predominantly focused on sports and lacks large-scale datasets for complex procedural activities. Existing studies typically involve only a limited number of actions, focus on either pairwise assessments (e.g., A is better than B) or on binary labels (e.g., good execution vs needs improvement). In response to these shortcomings, we introduce ProSkill, the first benchmark dataset for action-level skill assessment in procedural tasks. ProSkill provides absolute skill assessment annotations, along with pairwise ones. This is enabled by a novel and scalable annotation protocol that allows for the creation of an absolute skill assessment ranking starting from pairwise assessments. This protocol leverages a Swiss Tournament scheme for efficient pairwise comparisons, which are then aggregated into consistent, continuous global scores using an ELO-based rating system. We use our dataset to benchmark the main state-of-the-art skill assessment algorithms, including both ranking-based and pairwise paradigms. The suboptimal results achieved by the current state-of-the-art highlight the challenges and thus the value of ProSkill in the context of skill assessment for procedural videos. All data and code are available at https://fpv-iplab.github.io/ProSkill/
- Abstract(参考訳): プロシージャビデオのスキル評価は、製造やプロシージャ日々のタスクなどにおける人間のパフォーマンスの客観的評価に不可欠である。
スキルアセスメントに関する現在の研究は、主にスポーツに焦点を当てており、複雑な手続き活動のための大規模なデータセットが欠如している。
既存の研究は、通常は限られた数のアクションに限られており、ペアワイズアセスメント(例:AはBより優れている)かバイナリラベル(例:優れた実行と改善が必要)に重点を置いている。
これらの欠点に対応するために、手続きタスクにおけるアクションレベルスキルアセスメントのための最初のベンチマークデータセットであるProSkillを紹介する。
ProSkillは、ペアのスキルアセスメントアノテーションとともに、絶対的なスキルアセスメントアノテーションを提供します。
これは、ペアのアセスメントから始まる絶対的なスキルアセスメントランキングの作成を可能にする、新しくスケーラブルなアノテーションプロトコルによって実現されている。
このプロトコルは、効率的なペアワイズ比較のためのスイストーナメントスキームを活用し、ELOベースのレーティングシステムを使用して、一貫性のある連続的なグローバルスコアに集約される。
私たちはデータセットを使用して、ランキングベースとペアワイズの両方のパラダイムを含む、最先端のスキルアセスメントアルゴリズムをベンチマークします。
現在の最先端技術によって達成される準最適結果は、プロシージャビデオのスキルアセスメントの文脈における課題と、プロスキルの価値を浮き彫りにする。
すべてのデータとコードはhttps://fpv-iplab.github.io/ProSkill/で入手できる。
関連論文リスト
- FineSkiing: A Fine-grained Benchmark for Skiing Action Quality Assessment [18.701250140835224]
アクション品質アセスメント(AQA)は、スポーツ活動の評価と評価を目的としている。
既存のAQA手法は、主にビデオ全体から抽出された特徴に基づいてスコアを予測する。
本稿では,空飛ぶスキーのための微粒なサブスコアと推論アノテーションを含む最初のAQAデータセットを構築する。
論文 参考訳(メタデータ) (2025-11-13T12:29:39Z) - Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains [97.5573252172065]
自動推論評価器(FARE)のファミリーを,簡易な反復的リジェクションサンプリング制御による微調整手法で訓練する。
FARE-8Bはより大型のRL訓練評価器に挑戦し、FARE-20Bはオープンソース評価器の新しい標準となる。
推論時リランカとして、FARE-20BはMATH上でのニアオークル性能を達成する。
論文 参考訳(メタデータ) (2025-10-20T17:52:06Z) - Enhancing Classifier Evaluation: A Fairer Benchmarking Strategy Based on Ability and Robustness [0.4749981032986242]
本研究では,項目応答理論(IRT)とGlicko-2レーティングシステムを組み合わせた新しい評価手法を提案する。
IRTは難しいインスタンスよりもパフォーマンスに基づいて分類器の能力を評価し、Glicko-2はパフォーマンスメトリクスを更新します。
OpenML-CC18ベンチマークを使用したケーススタディでは、データセットの15%だけが本当に難しいことが判明した。
論文 参考訳(メタデータ) (2025-04-13T23:54:08Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Hyperparameters in Continual Learning: A Reality Check [50.784080714897776]
連続学習(CL)は、可塑性(新しいタスクを学ぶ)と安定性(事前知識を保持する)のトレードオフをバランスしながら、一連のタスクでモデルを訓練することを目的としている。
論文 参考訳(メタデータ) (2024-03-14T03:13:01Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。