論文の概要: Learning Skill-Attributes for Transferable Assessment in Video
- arxiv url: http://arxiv.org/abs/2511.13993v1
- Date: Mon, 17 Nov 2025 23:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.838431
- Title: Learning Skill-Attributes for Transferable Assessment in Video
- Title(参考訳): 動画における伝達性評価のための学習スキル属性
- Authors: Kumar Ashutosh, Kristen Grauman,
- Abstract要約: ビデオによるスキル評価は、人の身体的パフォーマンスの品質を評価し、何がより良くできるかを説明する。
当社のCrossTrainerアプローチでは,バランス,コントロール,手の位置決めといったスキル属性が検出される。
人間のスキルを表わす行動の共有を抽象化することにより,提案した映像表現は,既存のテクニックの配列よりもはるかに優れている。
- 参考スコア(独自算出の注目度): 56.813876909367856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skill assessment from video entails rating the quality of a person's physical performance and explaining what could be done better. Today's models specialize for an individual sport, and suffer from the high cost and scarcity of expert-level supervision across the long tail of sports. Towards closing that gap, we explore transferable video representations for skill assessment. Our CrossTrainer approach discovers skill-attributes, such as balance, control, and hand positioning -- whose meaning transcends the boundaries of any given sport, then trains a multimodal language model to generate actionable feedback for a novel video, e.g., "lift hands more to generate more power" as well as its proficiency level, e.g., early expert. We validate the new model on multiple datasets for both cross-sport (transfer) and intra-sport (in-domain) settings, where it achieves gains up to 60% relative to the state of the art. By abstracting out the shared behaviors indicative of human skill, the proposed video representation generalizes substantially better than an array of existing techniques, enriching today's multimodal large language models.
- Abstract(参考訳): ビデオによるスキル評価は、人の身体的パフォーマンスの品質を評価し、何がより良くできるかを説明する。
今日のモデルは個々のスポーツを専門とし、スポーツの長い尾にまたがる専門家レベルの監督のコストと不足に悩まされている。
そのギャップを埋めるために、我々は、スキルアセスメントのための転送可能なビデオ表現について検討する。
私たちのCrossTrainerアプローチは、バランス、コントロール、手の位置決めといったスキル属性を見つけます -- 特定のスポーツの境界を越えて、新しいビデオのアクション可能なフィードバックを生成するためにマルチモーダル言語モデルをトレーニングします。
我々は,クロススポーツ(トランスファー)とドメイン内(ドメイン内)の両方で,複数のデータセット上で新しいモデルを検証する。
人間のスキルを表現した共有動作を抽象化することにより、提案したビデオ表現は、既存のテクニックの配列よりもはるかに優れた一般化を実現し、今日のマルチモーダルな大規模言語モデルを強化している。
関連論文リスト
- SkillSight: Efficient First-Person Skill Assessment with Gaze [51.16409727318035]
SkillSightを導入し、一人称データから効率の良いスキルアセスメントを行う。
我々の2段階のフレームワークは、スキルレベルを予測する際に、視線と自我中心のビデオを共同でモデル化し、視線のみの学生モデルを蒸留する。
料理、音楽、スポーツにまたがる3つのデータセットの実験は、初めて、スキル理解において見つめることの価値のある役割を確立した。
論文 参考訳(メタデータ) (2025-11-24T19:05:28Z) - DeepSport: A Multimodal Large Language Model for Comprehensive Sports Video Reasoning via Agentic Reinforcement Learning [25.001089287899998]
DeepSportは、マルチタスク、マルチスポーツビデオ理解のために設計された、エンドツーエンドでトレーニングされた最初のMLLMフレームワークである。
我々の研究は、多様なスポーツの複雑さに対処するために、ドメイン固有のビデオ推論のための新しい基盤を確立する。
論文 参考訳(メタデータ) (2025-11-17T02:57:15Z) - SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports [21.410115837645318]
SportRは、スポーツインテリジェンスに必要な基本的な理由に基づいてMLLMを訓練し、評価するために設計された最初のマルチスポーツ大規模ベンチマークである。
私たちのベンチマークでは,5,017枚の画像と2,101本のビデオのデータセットが提供されている。
罰則の決定や戦術の説明など,多段階の推論を必要とする最も先進的なタスクに対して,我々は7,118の高品質な人間による思考の連鎖(Chain of Thought)アノテーションを提供する。
論文 参考訳(メタデータ) (2025-11-09T18:55:20Z) - ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation [3.115853870709636]
本稿では,このタスクを生成的推論として再構成する,コンパクトな視覚言語モデルProfVLMを提案する。
スキルレベルを共同で予測し、エゴセントリックなビデオやエクソセントリックなビデオから専門家のようなフィードバックを生成する。
論文 参考訳(メタデータ) (2025-09-30T14:00:41Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,バスケットボールやサッカーなどの身体活動を行う人の映像から,アクション可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,その人が何をしているか,何が改善できるかを解説した専門家のコメントを生成する。
Ego-Exo4Dの[29]ビデオの熟練した活動と専門家の解説を、強力な言語モデルとともに活用して、このタスクのための弱い教師付きトレーニングデータセットを作成する方法を示す。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:59:24Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。