論文の概要: ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation
- arxiv url: http://arxiv.org/abs/2509.26278v1
- Date: Tue, 30 Sep 2025 14:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.563307
- Title: ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation
- Title(参考訳): ProfVLM:マルチビュー能率推定のための軽量ビデオランゲージモデル
- Authors: Edoardo Bianchi, Jacopo Staiano, Antonio Liotta,
- Abstract要約: 本稿では,このタスクを生成的推論として再構成する,コンパクトな視覚言語モデルProfVLMを提案する。
スキルレベルを共同で予測し、エゴセントリックなビデオやエクソセントリックなビデオから専門家のようなフィードバックを生成する。
- 参考スコア(独自算出の注目度): 3.115853870709636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches to skill proficiency estimation often rely on black-box video classifiers, ignoring multi-view context and lacking explainability. We present ProfVLM, a compact vision-language model that reformulates this task as generative reasoning: it jointly predicts skill level and generates expert-like feedback from egocentric and exocentric videos. Central to our method is an AttentiveGatedProjector that dynamically fuses multi-view features, projected from a frozen TimeSformer backbone into a language model tuned for feedback generation. Trained on EgoExo4D with expert commentaries, ProfVLM surpasses state-of-the-art methods while using up to 20x fewer parameters and reducing training time by up to 60%. Our approach not only achieves superior accuracy across diverse activities, but also outputs natural language critiques aligned with performance, offering transparent reasoning. These results highlight generative vision-language modeling as a powerful new direction for skill assessment.
- Abstract(参考訳): スキルの熟練度推定への既存のアプローチは、しばしばブラックボックスビデオ分類器に依存し、マルチビューコンテキストを無視し、説明性に欠ける。
本稿では,このタスクを生成的推論として再構成する,コンパクトな視覚言語モデルProfVLMを提案する。
我々の手法の中心は、凍結したTimeSformerのバックボーンから動的にマルチビュー機能を融合するAttentiveGatedProjectorで、フィードバック生成用に調整された言語モデルに投影する。
専門家のコメントでEgoExo4DでトレーニングされているProfVLMは、最先端のメソッドを超越し、パラメータを最大20倍少なくし、トレーニング時間を最大60%短縮する。
提案手法は,多種多様な活動において優れた精度を達成できるだけでなく,性能に合わせた自然言語批判を出力し,透明な推論を提供する。
これらの結果は、生成的視覚言語モデリングを、スキルアセスメントのための強力な新しい方向性として強調する。
関連論文リスト
- ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,バスケットボールやサッカーなどの身体活動を行う人の映像から,アクション可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,その人が何をしているか,何が改善できるかを解説した専門家のコメントを生成する。
Ego-Exo4Dの[29]ビデオの熟練した活動と専門家の解説を、強力な言語モデルとともに活用して、このタスクのための弱い教師付きトレーニングデータセットを作成する方法を示す。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos [15.127197238628396]
LifelongMemoryは、自然言語による質問応答と検索を通じて、長い形式のエゴシックなビデオメモリにアクセスするための新しいフレームワークである。
Ego4D の自然言語クエリ (NLQ) の課題に対して,本手法は質問応答のためのベンチマークの最先端性能を実現し,高い競争力を発揮する。
論文 参考訳(メタデータ) (2023-12-07T19:19:25Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。