論文の概要: SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation
- arxiv url: http://arxiv.org/abs/2505.08665v1
- Date: Tue, 13 May 2025 15:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.640748
- Title: SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation
- Title(参考訳): SkillFormer: 熟練度推定のための統合マルチビュービデオ理解
- Authors: Edoardo Bianchi, Antonio Liotta,
- Abstract要約: SkillFormerは、統合されたマルチビューの熟練度推定のためのパラメータ効率の高いアーキテクチャである。
マルチヘッド・クロスアテンション、学習可能なゲーティング、適応的な自己校正を使って、ビュー特有の特徴を融合する。
マルチビュー設定で最先端の精度を実現し、計算効率を著しく向上させる。
- 参考スコア(独自算出の注目度): 0.49109372384514843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing human skill levels in complex activities is a challenging problem with applications in sports, rehabilitation, and training. In this work, we present SkillFormer, a parameter-efficient architecture for unified multi-view proficiency estimation from egocentric and exocentric videos. Building on the TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that fuses view-specific features using multi-head cross-attention, learnable gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to fine-tune only a small subset of parameters, significantly reducing training costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves state-of-the-art accuracy in multi-view settings while demonstrating remarkable computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer training epochs than prior baselines. It excels in multiple structured tasks, confirming the value of multi-view integration for fine-grained skill assessment.
- Abstract(参考訳): 複雑な活動において人間のスキルレベルを評価することは、スポーツ、リハビリテーション、トレーニングの応用において難しい問題である。
本研究では,エゴセントリックなビデオとエゴセントリックなビデオからマルチビューの熟練度を推定するためのパラメータ効率の高いアーキテクチャであるSkillFormerを提案する。
TimeSformerのバックボーン上に構築されているSkillFormerは、マルチヘッドのクロスアテンション、学習可能なゲーティング、適応的な自己校正を使用して、ビュー固有の機能を融合するCrossViewFusionモジュールを提供する。
低ランク適応(low-Rank Adaptation)を利用して、パラメータの小さなサブセットのみを微調整し、トレーニングコストを大幅に削減します。
実際、EgoExo4Dデータセットで評価すると、SkillFormerはマルチビュー設定における最先端の精度を達成しつつ、4.5倍のパラメータを使用し、以前のベースラインよりも3.75倍のトレーニングエポックを必要とする、驚くべき計算効率を示している。
複数の構造化されたタスクを最適化し、きめ細かいスキルアセスメントのためのマルチビュー統合の価値を確認します。
関連論文リスト
- UniRVQA: A Unified Framework for Retrieval-Augmented Vision Question Answering via Self-Reflective Joint Training [16.14877145354785]
知識集約型視覚質問のための統一検索型VQAフレームワーク(UniRVQA)を提案する。
UniRVQAは、統一されたフレームワーク内でのきめ細かい知識集約タスクに対して、一般的なマルチモーダル事前訓練モデルを適用する。
提案手法は,最先端モデルに対する競争性能を実現し,回答精度が4.7%向上し,ベースMLLMのVQA性能が平均7.5%向上した。
論文 参考訳(メタデータ) (2025-04-05T05:42:12Z) - Self-Supervised Partial Cycle-Consistency for Multi-View Matching [5.984724082624813]
我々は、部分的な重複を処理するために、サイクル一貫性を持つビュー不変の特徴抽出ネットワークを訓練する。
本稿では,複数のサイクルを補完し,時間分割シーンサンプリング方式を提案する。
自己監督状態と比較すると, コントリビューションによるF1スコアは4.3%上昇した。
論文 参考訳(メタデータ) (2025-01-10T14:32:20Z) - CM3T: Framework for Efficient Multimodal Learning for Inhomogeneous Interaction Datasets [0.9642500063568188]
本稿では,CM3Tと呼ばれるクロスラーニングのための新しいモデルに依存しないプラグインアーキテクチャを提案する。
本稿では,トランスファー学習用マルチヘッド・ビジョン・アダプタとマルチモーダル学習用クロスアテンション・アダプタの2つのアダプタ・ブロックを紹介する。
ビデオ入力を処理するバックボーンと比較してトレーニング可能なパラメータは12.8%に過ぎず、最先端よりも同等で、さらに優れた結果が得られる。
論文 参考訳(メタデータ) (2025-01-06T19:01:10Z) - Context-Aware Multimodal Pretraining [72.04020920042574]
視覚言語モデルをトレーニングすることで,数ショット適応を著しく向上させることができることを示す。
テストタイムのサンプル効率は最大で4倍改善され、平均的な数ショット適応率は5%以上向上した。
論文 参考訳(メタデータ) (2024-11-22T17:55:39Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。