論文の概要: ExAct: A Video-Language Benchmark for Expert Action Analysis
- arxiv url: http://arxiv.org/abs/2506.06277v1
- Date: Fri, 06 Jun 2025 17:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.580982
- Title: ExAct: A Video-Language Benchmark for Expert Action Analysis
- Title(参考訳): ExAct: エキスパートアクション分析のためのビデオ言語ベンチマーク
- Authors: Han Yi, Yulu Pan, Feihong He, Xinyu Liu, Benjamin Zhang, Oluwatumininu Oguntola, Gedas Bertasius,
- Abstract要約: ExActは、熟練した身体活動のエキスパートレベルの理解のためのビデオ言語ベンチマークである。
これには、6つのドメインで11の身体活動にまたがる3521人の専門家によるビデオ質問応答ペアが含まれている。
最高性能のGPT-4oモデルは44.70%の精度しか達成せず、訓練された専門家や専門家が達成した82.02%を大きく下回っている。
- 参考スコア(独自算出の注目度): 23.998952660133206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ExAct, a new video-language benchmark for expert-level understanding of skilled physical human activities. Our new benchmark contains 3521 expert-curated video question-answer pairs spanning 11 physical activities in 6 domains: Sports, Bike Repair, Cooking, Health, Music, and Dance. ExAct requires the correct answer to be selected from five carefully designed candidate options, thus necessitating a nuanced, fine-grained, expert-level understanding of physical human skills. Evaluating the recent state-of-the-art VLMs on ExAct reveals a substantial performance gap relative to human expert performance. Specifically, the best-performing GPT-4o model achieves only 44.70% accuracy, well below the 82.02% attained by trained human specialists/experts. We believe that ExAct will be beneficial for developing and evaluating VLMs capable of precise understanding of human skills in various physical and procedural domains. Dataset and code are available at https://texaser.github.io/exact_project_page/
- Abstract(参考訳): 我々は、熟練した身体活動のエキスパートレベル理解のための、新しいビデオ言語ベンチマークExActを紹介する。
新しいベンチマークには、スポーツ、自転車修理、料理、健康、音楽、ダンスの6つの領域で11の身体活動にまたがる3521人の専門家による質問対が含まれています。
ExActは、5つの慎重に設計された候補の中から正しい答えを選択する必要がある。
ExAct上での最近の最先端のVLMの評価は、人間の専門家のパフォーマンスとはかなりのパフォーマンスの差を示している。
具体的には、最高のパフォーマンスのGPT-4oモデルは44.70%の精度しか達成していない。
我々は,様々な物理的・手続き的領域において,人間のスキルを正確に理解することのできるVLMを開発し,評価する上で,ExActが有用であると信じている。
データセットとコードはhttps://texaser.github.io/exact_project_page/で公開されている。
関連論文リスト
- MMVU: Measuring Expert-Level Multi-Discipline Video Understanding [34.79283799754043]
ビデオ理解における基礎モデルを評価するための総合的専門家レベルのマルチディシプリンのベンチマークであるMMVUを紹介する。
MMVUには、科学、医療、人文科学、社会科学、工学という4つの中核分野にまたがる27の科目にわたる専門家による3000の質問が含まれている。
まず、ドメイン固有の知識を適用し、専門家レベルの推論を実行して、専門的なドメインビデオを分析し、基本的な視覚的知覚を超えて、モデルに挑戦する。
論文 参考訳(メタデータ) (2025-01-21T18:56:18Z) - Poze: Sports Technique Feedback under Data Constraints [31.529820481453026]
Pozeは革新的なビデオ処理フレームワークで、人間の動きに対するフィードバックを提供し、プロのコーチの洞察をエミュレートする。
Pozeは、ビデオ質問応答フレームワークにおける最先端のビジョン言語モデルを超え、それぞれGPT4VとLLaVAv1.6 7bよりも70%と196%の精度を達成している。
論文 参考訳(メタデータ) (2024-11-08T17:48:20Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,バスケットボールやサッカーなどの身体活動を行う人の映像から,アクション可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,その人が何をしているか,何が改善できるかを解説した専門家のコメントを生成する。
Ego-Exo4Dの[29]ビデオの熟練した活動と専門家の解説を、強力な言語モデルとともに活用して、このタスクのための弱い教師付きトレーニングデータセットを作成する方法を示す。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives [194.06650316685798]
Ego-Exo4Dは、熟練した人間の活動を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。
世界の13都市から740人の参加者が123の異なる自然環境下でこれらの活動を行った。
ビデオにはマルチチャンネルオーディオ、視線、3Dポイントクラウド、カメラポーズ、IMU、複数対の言語記述が添付されている。
論文 参考訳(メタデータ) (2023-11-30T05:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。