論文の概要: FormCoach: Lift Smarter, Not Harder
- arxiv url: http://arxiv.org/abs/2508.07501v1
- Date: Sun, 10 Aug 2025 22:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.887645
- Title: FormCoach: Lift Smarter, Not Harder
- Title(参考訳): FormCoach: より賢く、より硬くはない
- Authors: Xiaoye Zuo, Nikos Athanasiou, Ginger Delmas, Yiming Huang, Xingyu Fu, Lingjie Liu,
- Abstract要約: FormCoachは、常にオンで対話的なAIトレーニングパートナで、微妙なフォームエラーを見つけ出し、リアルタイムで調整された修正を提供する。
我々は、Webインターフェースと最先端のビジョン言語モデル(VLM)を用いて、1,700人のエキスパートによる注釈付きユーザ参照ビデオペアのデータセット上で、この機能を実証する。
- 参考スコア(独自算出の注目度): 23.244630644830064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Good form is the difference between strength and strain, yet for the fast-growing community of at-home fitness enthusiasts, expert feedback is often out of reach. FormCoach transforms a simple camera into an always-on, interactive AI training partner, capable of spotting subtle form errors and delivering tailored corrections in real time, leveraging vision-language models (VLMs). We showcase this capability through a web interface and benchmark state-of-the-art VLMs on a dataset of 1,700 expert-annotated user-reference video pairs spanning 22 strength and mobility exercises. To accelerate research in AI-driven coaching, we release both the dataset and an automated, rubric-based evaluation pipeline, enabling standardized comparison across models. Our benchmarks reveal substantial gaps compared to human-level coaching, underscoring both the challenges and opportunities in integrating nuanced, context-aware movement analysis into interactive AI systems. By framing form correction as a collaborative and creative process between humans and machines, FormCoach opens a new frontier in embodied AI.
- Abstract(参考訳): 体格は強さと緊張の差だが、家庭内フィットネス愛好家の急成長するコミュニティにとって、専門家からのフィードバックは手の届かないものが多い。
FormCoachは、シンプルなカメラを常時オンの対話型AIトレーニングパートナに変換し、微妙なフォームエラーを見つけ出し、視覚言語モデル(VLM)を活用して、リアルタイムで調整された修正を提供する。
我々は、22の強度と運動量にまたがる1,700人の専門家によるユーザ参照ビデオペアのデータセット上で、Webインターフェースと最先端のVLMをベンチマークすることで、この機能を実演する。
AI駆動コーチングの研究を加速するために、データセットと、ルックスに基づく自動評価パイプラインの両方をリリースし、モデル間での標準化された比較を可能にした。
我々のベンチマークでは、人間レベルのコーチングと比べて大きなギャップが示されており、ニュアンスでコンテキスト対応のムーブメント分析を対話型AIシステムに統合する上での課題と機会の両方を強調しています。
フォーム修正を人間と機械の協調的で創造的なプロセスとしてフレーミングすることで、FormCoachはAIの新たなフロンティアを開拓する。
関連論文リスト
- From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - What to Say and When to Say it: Live Fitness Coaching as a Testbed for Situated Interaction [5.958765450103163]
QEVDベンチマークとデータセットは、フィットネスコーチングの挑戦的かつ制御されながら現実的な領域における人間とAIの相互作用を探索するものだ。
このベンチマークでは、複雑な人間の行動を認識し、起こりうる誤りを特定し、リアルタイムで適切なフィードバックを提供するために、視覚言語モデルが必要である。
そこで本研究では,適切なタイミングで適切なフィードバックで人間の行動に非同期に応答できる,シンプルなエンドツーエンドストリーミングベースラインを提案する。
論文 参考訳(メタデータ) (2024-07-11T00:10:45Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。