論文の概要: Poze: Sports Technique Feedback under Data Constraints
- arxiv url: http://arxiv.org/abs/2411.05734v1
- Date: Fri, 08 Nov 2024 17:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:26.040071
- Title: Poze: Sports Technique Feedback under Data Constraints
- Title(参考訳): Poze:データ制約下でのスポーツ技術フィードバック
- Authors: Agamdeep Singh, Sujit PB, Mayank Vatsa,
- Abstract要約: Pozeは革新的なビデオ処理フレームワークで、人間の動きに対するフィードバックを提供し、プロのコーチの洞察をエミュレートする。
Pozeは、ビデオ質問応答フレームワークにおける最先端のビジョン言語モデルを超え、それぞれGPT4VとLLaVAv1.6 7bよりも70%と196%の精度を達成している。
- 参考スコア(独自算出の注目度): 31.529820481453026
- License:
- Abstract: Access to expert coaching is essential for developing technique in sports, yet economic barriers often place it out of reach for many enthusiasts. To bridge this gap, we introduce Poze, an innovative video processing framework that provides feedback on human motion, emulating the insights of a professional coach. Poze combines pose estimation with sequence comparison and is optimized to function effectively with minimal data. Poze surpasses state-of-the-art vision-language models in video question-answering frameworks, achieving 70% and 196% increase in accuracy over GPT4V and LLaVAv1.6 7b, respectively.
- Abstract(参考訳): スポーツにおける技術開発には専門家のコーチングへのアクセスが不可欠であるが、経済的障壁によって多くの愛好家にとって手の届かないものとなることが多い。
このギャップを埋めるために、私たちは、プロフェッショナルコーチの洞察をエミュレートして、人間の動きに対するフィードバックを提供する革新的なビデオ処理フレームワークであるPozeを紹介します。
Pozeはポーズ推定とシーケンス比較を組み合わせ、最小限のデータで効果的に機能するように最適化されている。
Pozeは、ビデオ質問応答フレームワークにおける最先端のビジョン言語モデルを超え、それぞれGPT4VとLLaVAv1.6 7bよりも70%と196%の精度を達成している。
関連論文リスト
- VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,身体活動を行う人の映像から行動可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,専門家による解説を生成する。
提案手法は,マルチモーダルな入力の組み合わせを解析し,フルスペクトルで実用的なコーチングを出力することができる。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - AI coach for badminton [0.0]
本研究では,バドミントンマッチの映像を識別し,プレイヤーの運動学と生体力学の知見を抽出する。
この研究は、姿勢、技術、筋肉の向きの改善を示唆する予測モデルを導出することを目的としている。
これらの勧告は、誤ったテクニックを緩和し、関節疲労のリスクを低減し、全体的なパフォーマンスを向上させるように設計されている。
論文 参考訳(メタデータ) (2024-03-13T20:51:21Z) - ViSTec: Video Modeling for Sports Technique Recognition and Tactical
Analysis [19.945083591851517]
ViSTecは、人間の認知にインスパイアされたビデオベースのスポーツ技術認識モデルである。
提案手法は,ストロークシーケンスにおける戦略的知識を明示的にモデル化するグラフを統合し,文脈的帰納バイアスによる技術認識を強化する。
中国の卓球チームの専門家によるケーススタディは、分析を自動化するモデルの能力を検証する。
論文 参考訳(メタデータ) (2024-02-25T02:04:56Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - A Survey of Advanced Computer Vision Techniques for Sports [0.0]
我々は,コンピュータビジョンモデルのみを用いて得られたポーズデータを用いて,撮影速度推定のためのモデルを構築した。
提案手法は多くの技術運動に対して容易に複製可能である。
論文 参考訳(メタデータ) (2023-01-18T15:01:36Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Video Pose Distillation for Few-Shot, Fine-Grained Sports Action
Recognition [17.84533144792773]
Video Pose Distillation (VPD)は、新しいビデオドメインの機能を学ぶための弱い教師付きテクニックである。
VPDは、4つの実世界のスポーツビデオデータセットで、いくつかのショット、きめ細かなアクション認識、検索、検出タスクのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2021-09-03T04:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。