論文の概要: SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation
- arxiv url: http://arxiv.org/abs/2505.08665v2
- Date: Fri, 13 Jun 2025 12:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 13:34:01.679691
- Title: SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation
- Title(参考訳): SkillFormer: 熟練度推定のための統合マルチビュービデオ理解
- Authors: Edoardo Bianchi, Antonio Liotta,
- Abstract要約: SkillFormerは、統合されたマルチビューの熟練度推定のためのパラメータ効率の高いアーキテクチャである。
マルチヘッド・クロスアテンション、学習可能なゲーティング、適応的な自己校正を使って、ビュー特有の特徴を融合する。
マルチビュー設定で最先端の精度を実現し、計算効率を著しく向上させる。
- 参考スコア(独自算出の注目度): 0.49109372384514843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing human skill levels in complex activities is a challenging problem with applications in sports, rehabilitation, and training. In this work, we present SkillFormer, a parameter-efficient architecture for unified multi-view proficiency estimation from egocentric and exocentric videos. Building on the TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that fuses view-specific features using multi-head cross-attention, learnable gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to fine-tune only a small subset of parameters, significantly reducing training costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves state-of-the-art accuracy in multi-view settings while demonstrating remarkable computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer training epochs than prior baselines. It excels in multiple structured tasks, confirming the value of multi-view integration for fine-grained skill assessment.
- Abstract(参考訳): 複雑な活動において人間のスキルレベルを評価することは、スポーツ、リハビリテーション、トレーニングの応用において難しい問題である。
本研究では,エゴセントリックなビデオとエゴセントリックなビデオからマルチビューの熟練度を推定するためのパラメータ効率の高いアーキテクチャであるSkillFormerを提案する。
TimeSformerのバックボーン上に構築されているSkillFormerは、マルチヘッドのクロスアテンション、学習可能なゲーティング、適応的な自己校正を使用して、ビュー固有の機能を融合するCrossViewFusionモジュールを提供する。
低ランク適応(low-Rank Adaptation)を利用して、パラメータの小さなサブセットのみを微調整し、トレーニングコストを大幅に削減します。
実際、EgoExo4Dデータセットで評価すると、SkillFormerはマルチビュー設定における最先端の精度を達成しつつ、4.5倍のパラメータを使用し、以前のベースラインよりも3.75倍のトレーニングエポックを必要とする、驚くべき計算効率を示している。
複数の構造化されたタスクを最適化し、きめ細かいスキルアセスメントのためのマルチビュー統合の価値を確認します。
関連論文リスト
- Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations [5.37133760455631]
AliAdは、マルチビューのコントラスト学習とエキスパートの混合モジュールを組み合わせて、トレーニングと推論の両方で任意のビューアベイラビリティをサポートするモデルである。
AliAdは、慣性と人間のポーズのモダリティを含む4つのデータセットで検証されており、ビュー数は3から9までで、パフォーマンスと柔軟性を示している。
論文 参考訳(メタデータ) (2026-02-09T14:58:08Z) - MuSASplat: Efficient Sparse-View 3D Gaussian Splats via Lightweight Multi-Scale Adaptation [92.57609195819647]
MuSASplatは、ポーズなしフィードフォワード3Dガウスモデルの計算負担を劇的に削減する新しいフレームワークである。
我々のアプローチの中心は、ほんのわずかなトレーニングパラメータだけで、ViTベースのアーキテクチャを効率的に微調整できる軽量なマルチスケールアダプタである。
論文 参考訳(メタデータ) (2025-12-08T04:56:46Z) - UniRVQA: A Unified Framework for Retrieval-Augmented Vision Question Answering via Self-Reflective Joint Training [16.14877145354785]
知識集約型視覚質問のための統一検索型VQAフレームワーク(UniRVQA)を提案する。
UniRVQAは、統一されたフレームワーク内でのきめ細かい知識集約タスクに対して、一般的なマルチモーダル事前訓練モデルを適用する。
提案手法は,最先端モデルに対する競争性能を実現し,回答精度が4.7%向上し,ベースMLLMのVQA性能が平均7.5%向上した。
論文 参考訳(メタデータ) (2025-04-05T05:42:12Z) - Self-Supervised Partial Cycle-Consistency for Multi-View Matching [5.984724082624813]
我々は、部分的な重複を処理するために、サイクル一貫性を持つビュー不変の特徴抽出ネットワークを訓練する。
本稿では,複数のサイクルを補完し,時間分割シーンサンプリング方式を提案する。
自己監督状態と比較すると, コントリビューションによるF1スコアは4.3%上昇した。
論文 参考訳(メタデータ) (2025-01-10T14:32:20Z) - CM3T: Framework for Efficient Multimodal Learning for Inhomogeneous Interaction Datasets [0.9642500063568188]
本稿では,CM3Tと呼ばれるクロスラーニングのための新しいモデルに依存しないプラグインアーキテクチャを提案する。
本稿では,トランスファー学習用マルチヘッド・ビジョン・アダプタとマルチモーダル学習用クロスアテンション・アダプタの2つのアダプタ・ブロックを紹介する。
ビデオ入力を処理するバックボーンと比較してトレーニング可能なパラメータは12.8%に過ぎず、最先端よりも同等で、さらに優れた結果が得られる。
論文 参考訳(メタデータ) (2025-01-06T19:01:10Z) - Context-Aware Multimodal Pretraining [72.04020920042574]
視覚言語モデルをトレーニングすることで,数ショット適応を著しく向上させることができることを示す。
テストタイムのサンプル効率は最大で4倍改善され、平均的な数ショット適応率は5%以上向上した。
論文 参考訳(メタデータ) (2024-11-22T17:55:39Z) - CROME: Cross-Modal Adapters for Efficient Multimodal LLM [28.337072921099494]
MLLM(Multimodal Large Language Models)は、画像言語機能を示す。
既存のアプローチは、しばしば高価な言語モデルの再訓練と限定的な適応性を必要とする。
本稿では,効率的な視覚言語命令チューニングフレームワークCROMEを提案する。
論文 参考訳(メタデータ) (2024-08-13T03:45:11Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - VQA Training Sets are Self-play Environments for Generating Few-shot Pools [2.556825820539693]
本稿では,タスクメトリクスを報酬として計算環境を構築するために,既存のトレーニングセットを直接利用できる手法を提案する。
提案手法は、ゼロショットプロンプトから始まり、トレーニングセット上のタスクメトリックを最大化する少数ショット例を選択することにより、反復的にそれらを洗練する。
我々の実験では、GeminiがScreenAIのようなより小型で特殊なモデルを使って、トレーニングセットのパフォーマンスを反復的に改善する方法を実証している。
論文 参考訳(メタデータ) (2024-05-30T07:38:58Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Cross-Modal Adapter for Vision-Language Retrieval [60.59577149733934]
パラメータ効率の伝達学習のためのクロスモーダル適応器を提案する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
提案手法には,(1)微調整パラメータの大部分の削減,(2)トレーニング時間の短縮,(3)事前学習パラメータの修正,という3つの特長がある。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。