論文の概要: SkillSight: Efficient First-Person Skill Assessment with Gaze
- arxiv url: http://arxiv.org/abs/2511.19629v1
- Date: Mon, 24 Nov 2025 19:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.121748
- Title: SkillSight: Efficient First-Person Skill Assessment with Gaze
- Title(参考訳): SkillSight: Gazeによる効果的なファーストパーソンスキルアセスメント
- Authors: Chi Hsuan Wu, Kumar Ashutosh, Kristen Grauman,
- Abstract要約: SkillSightを導入し、一人称データから効率の良いスキルアセスメントを行う。
我々の2段階のフレームワークは、スキルレベルを予測する際に、視線と自我中心のビデオを共同でモデル化し、視線のみの学生モデルを蒸留する。
料理、音楽、スポーツにまたがる3つのデータセットの実験は、初めて、スキル理解において見つめることの価値のある役割を確立した。
- 参考スコア(独自算出の注目度): 51.16409727318035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric perception on smart glasses could transform how we learn new skills in the physical world, but automatic skill assessment remains a fundamental technical challenge. We introduce SkillSight for power-efficient skill assessment from first-person data. Central to our approach is the hypothesis that skill level is evident not only in how a person performs an activity (video), but also in how they direct their attention when doing so (gaze). Our two-stage framework first learns to jointly model gaze and egocentric video when predicting skill level, then distills a gaze-only student model. At inference, the student model requires only gaze input, drastically reducing power consumption by eliminating continuous video processing. Experiments on three datasets spanning cooking, music, and sports establish, for the first time, the valuable role of gaze in skill understanding across diverse real-world settings. Our SkillSight teacher model achieves state-of-the-art performance, while our gaze-only student variant maintains high accuracy using 73x less power than competing methods. These results pave the way for in-the-wild AI-supported skill learning.
- Abstract(参考訳): スマートグラスに対するエゴセントリックな認識は、物理的な世界で新しいスキルを学ぶ方法を変えるかもしれませんが、自動スキルアセスメントは依然として基本的な技術的課題です。
SkillSightを導入し、一人称データから効率の良いスキルアセスメントを行う。
私たちのアプローチの中心は、スキルレベルは、人が活動を行う方法(ビデオ)だけでなく、それを行う際の注意を向ける方法(注視)においても明らかである、という仮説です。
私たちの2段階のフレームワークは、まず、スキルレベルを予測する際に、視線と自我中心のビデオを共同でモデル化し、その後、視線のみの学生モデルを蒸留します。
推測では、学生モデルは視線入力のみを必要とし、連続的なビデオ処理を排除して消費電力を大幅に削減する。
料理、音楽、スポーツにまたがる3つのデータセットの実験は、様々な現実世界でスキルを理解する上で価値のある役割を初めて確立した。
SkillSightの教師モデルは最先端のパフォーマンスを達成する一方、視線のみの生徒モデルは、競合する手法の73倍の消費電力で高精度を維持している。
これらの結果は、最先端のAI支援スキル学習の道を開くものだ。
関連論文リスト
- Learning Skill-Attributes for Transferable Assessment in Video [56.813876909367856]
ビデオによるスキル評価は、人の身体的パフォーマンスの品質を評価し、何がより良くできるかを説明する。
当社のCrossTrainerアプローチでは,バランス,コントロール,手の位置決めといったスキル属性が検出される。
人間のスキルを表わす行動の共有を抽象化することにより,提案した映像表現は,既存のテクニックの配列よりもはるかに優れている。
論文 参考訳(メタデータ) (2025-11-17T23:53:06Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,バスケットボールやサッカーなどの身体活動を行う人の映像から,アクション可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,その人が何をしているか,何が改善できるかを解説した専門家のコメントを生成する。
Ego-Exo4Dの[29]ビデオの熟練した活動と専門家の解説を、強力な言語モデルとともに活用して、このタスクのための弱い教師付きトレーニングデータセットを作成する方法を示す。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - Mimicking the Maestro: Exploring the Efficacy of a Virtual AI Teacher in
Fine Motor Skill Acquisition [3.07176124710244]
運動スキル、特に手書きなどの運動スキルは、学術的な追求や日常生活において重要な役割を担っている。
これらのスキルを効果的に教える伝統的な方法は、時間がかかり、一貫性がない。
我々は,人間の教官の特徴を捉えたAI教師モデルを導入する。
論文 参考訳(メタデータ) (2023-10-16T11:11:43Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Graph-based Exercise- and Knowledge-Aware Learning Network for Student
Performance Prediction [8.21303828329009]
学生のスコアを正確に予測するためのグラフベースのエクササイズ・アンド・ナレッジ・アウェアラーニングネットワークを提案する。
我々は,エクササイズとナレッジ概念の熟達度を学習し,エクササイズとナレッジ概念の2倍の効果をモデル化する。
論文 参考訳(メタデータ) (2021-06-01T06:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。