論文の概要: From 3D Pose to Prose: Biomechanics-Grounded Vision--Language Coaching
- arxiv url: http://arxiv.org/abs/2603.26938v1
- Date: Fri, 27 Mar 2026 19:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.701054
- Title: From 3D Pose to Prose: Biomechanics-Grounded Vision--Language Coaching
- Title(参考訳): 3D Pose から Prose へ:バイオメカニクス-周辺視-言語コーチング
- Authors: Yuyang Ji, Yixuan Shen, Shengjie Zhu, Yu Kong, Feng Liu,
- Abstract要約: BioCoachは、ストリーミングビデオからのフィットネスコーチングのためのビジョン言語フレームワークである。
視覚的な外観と3D骨格のキネマティクスを、新しい3段階のパイプラインで融合させる。
オリジナルのQEVD対応チップでは、テキストの品質と正しさをほぼ一定タイミングで改善する。
- 参考スコア(独自算出の注目度): 19.008659008661542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BioCoach, a biomechanics-grounded vision--language framework for fitness coaching from streaming video. BioCoach fuses visual appearance and 3D skeletal kinematics, through a novel three-stage pipeline: an exercise-specific degree-of-freedom selector that focuses analysis on salient joints; a structured biomechanical context that pairs individualized morphometrics with cycle and constraint analysis; and a vision--biomechanics conditioned feedback module that applies cross-attention to generate precise, actionable text. Using parameter-efficient training that freezes the vision and language backbones, BioCoach yields transparent, personalized reasoning rather than pattern matching. To enable learning and fair evaluation, we augment QEVD-fit-coach with biomechanics-oriented feedback to create QEVD-bio-fit-coach, and we introduce a biomechanics-aware LLM judge metric. BioCoach delivers clear gains on QEVD-bio-fit-coach across lexical and judgment metrics while maintaining temporal triggering; on the original QEVD-fit-coach, it improves text quality and correctness with near-parity timing, demonstrating that explicit kinematics and constraints are key to accurate, phase-aware coaching.
- Abstract(参考訳): 本稿では,BioCoachについて紹介する。BioCoachはバイオメカニクスを基盤とした,ストリーミングビデオによるフィットネスコーチングのための言語フレームワークである。
BioCoachは、視覚的な外観と3D骨格キネマティクスを融合させ、新しい3段階のパイプライン:サルエントジョイントの分析に焦点を当てた運動特異的自由度セレクタ、サイクルと制約分析を個別化するための構造化されたバイオメカニクスコンテキスト、正確に動作可能なテキストを生成するためにクロスアテンションを適用した視覚-バイオメカニクス条件付きフィードバックモジュールである。
ビジョンと言語のバックボーンを凍結するパラメータ効率のトレーニングを使用することで、BioCoachはパターンマッチングではなく、透明でパーソナライズされた推論を生成する。
学習と公正な評価を可能にするため,バイオメカニクス指向のフィードバックでQEVD適合コーチを増強し,QEVD適合コーチを作成するとともに,生体メカニクス対応LCM判定基準を導入する。
BioCoachは、時間的トリガを維持しながら、語彙的および判断的指標にわたるQEVD-bio-fit-coachに明確な利益をもたらします。
関連論文リスト
- BioGait-VLM: A Tri-Modal Vision-Language-Biomechanics Framework for Interpretable Clinical Gait Assessment [4.674098893032597]
BioGait-VLMは,3モーダルビジョン・ランゲージ・バイオメカニクスフレームワークである。
我々のアーキテクチャは、リズム力学を捉えるための時間的エビデンス蒸留枝と、3Dスケルトン配列を言語対応のセマンティックトークンに投影するバイオメカニカルトークン化枝を組み込んでいる。
論文 参考訳(メタデータ) (2026-03-09T16:25:28Z) - Exploring Physical Intelligence Emergence via Omni-Modal Architecture and Physical Data Engine [50.62040226184694]
我々はOmniFysicsについて紹介する。OmniFysicsは、画像、音声、ビデオ、テキスト間の理解を統一するコンパクトなオムニモーダルモデルである。
明示的な物理知識を注入するために、2つのコンポーネントからなる物理データエンジンを構築します。
実験は、標準マルチモーダルベンチマークにおける競合性能を示し、物理指向評価の結果を改善した。
論文 参考訳(メタデータ) (2026-02-05T14:04:51Z) - Talking Tennis: Language Feedback from 3D Biomechanical Action Recognition [0.0]
本研究は,運動データから重要な生体力学的特徴を抽出する新しい枠組みを開発する。
これらの特徴は脳卒中の有効性と外傷リスクに影響を及ぼす関係を解析し、フィードバック生成の基礎を形成する。
実験的な設定は、分類性能と解釈可能性に関するこのフレームワークを評価し、説明可能なAIとスポーツバイオメカニクスのギャップを埋める。
論文 参考訳(メタデータ) (2025-10-04T19:55:30Z) - Biomechanics-Guided Residual Approach to Generalizable Human Motion Generation and Estimation [21.750804738752105]
3つの中心となるイノベーションを持つバイオメカニック・アウェア・フレームワークであるBioVAEを提案する。
複数のベンチマークにおいて,BioVAEが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-03-08T10:22:36Z) - MS-MANO: Enabling Hand Pose Tracking with Biomechanical Constraints [50.61346764110482]
筋骨格系と学習可能なパラメトリックハンドモデルMANOを統合し,MS-MANOを作成する。
このモデルは骨格系を駆動する筋肉と腱の力学をエミュレートし、結果として生じるトルク軌跡に生理学的に現実的な制約を与える。
また,マルチ層パーセプトロンネットワークによる初期推定ポーズを改良する,ループ式ポーズ改善フレームワークBioPRを提案する。
論文 参考訳(メタデータ) (2024-04-16T02:18:18Z) - 3D Kinematics Estimation from Video with a Biomechanical Model and
Synthetic Training Data [4.130944152992895]
2つの入力ビューから3Dキネマティクスを直接出力するバイオメカニクス対応ネットワークを提案する。
実験により, 提案手法は, 合成データにのみ訓練されたものであり, 従来の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-20T17:33:40Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。