論文の概要: LOGO: A Long-Form Video Dataset for Group Action Quality Assessment
- arxiv url: http://arxiv.org/abs/2404.05029v1
- Date: Sun, 7 Apr 2024 17:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 16:12:42.937235
- Title: LOGO: A Long-Form Video Dataset for Group Action Quality Assessment
- Title(参考訳): LOGO:グループアクション品質評価のための長期ビデオデータセット
- Authors: Shiyi Zhang, Wenxun Dai, Sujia Wang, Xiangwei Shen, Jiwen Lu, Jie Zhou, Yansong Tang,
- Abstract要約: LOGOと呼ばれるアクション品質評価のための多人数長ビデオデータセットを構築した。
私たちのデータセットには、26のアーティスティックスイミングイベントの200の動画と、各サンプルに8人のアスリートと、平均204.2秒の時間が含まれています。
アノテーションの豊かさに関して、LOGOには、複数のアスリートのグループ情報とアクション手順に関する詳細なアノテーションを記述するためのフォーメーションラベルが含まれている。
- 参考スコア(独自算出の注目度): 63.53109605625047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action quality assessment (AQA) has become an emerging topic since it can be extensively applied in numerous scenarios. However, most existing methods and datasets focus on single-person short-sequence scenes, hindering the application of AQA in more complex situations. To address this issue, we construct a new multi-person long-form video dataset for action quality assessment named LOGO. Distinguished in scenario complexity, our dataset contains 200 videos from 26 artistic swimming events with 8 athletes in each sample along with an average duration of 204.2 seconds. As for richness in annotations, LOGO includes formation labels to depict group information of multiple athletes and detailed annotations on action procedures. Furthermore, we propose a simple yet effective method to model relations among athletes and reason about the potential temporal logic in long-form videos. Specifically, we design a group-aware attention module, which can be easily plugged into existing AQA methods, to enrich the clip-wise representations based on contextual group information. To benchmark LOGO, we systematically conduct investigations on the performance of several popular methods in AQA and action segmentation. The results reveal the challenges our dataset brings. Extensive experiments also show that our approach achieves state-of-the-art on the LOGO dataset. The dataset and code will be released at \url{https://github.com/shiyi-zh0408/LOGO }.
- Abstract(参考訳): アクション品質アセスメント(AQA)は多くのシナリオで広く適用できるため、新たなトピックとなっている。
しかし、既存のほとんどの手法とデータセットは、より複雑な状況におけるAQAの適用を妨げる、シングルパーソンのショートシーケンスシーンに焦点を当てている。
この問題に対処するため,LOGOというアクション品質評価のための多人数長ビデオデータセットを構築した。
シナリオの複雑さで識別されたデータセットには、26のアーティスティックスイミングイベントのビデオ200本と、各サンプルに8人のアスリートと、平均204.2秒の時間が含まれています。
アノテーションの豊かさに関して、LOGOには、複数のアスリートのグループ情報とアクション手順に関する詳細なアノテーションを記述するためのフォーメーションラベルが含まれている。
さらに,スポーツ選手間の関係をモデル化する簡易かつ効果的な手法を提案する。
具体的には、既存のAQAメソッドに簡単にプラグイン可能なグループ認識アテンションモジュールを設計し、コンテキスト的グループ情報に基づくクリップワイズ表現を充実させる。
LOGOをベンチマークするために、AQAとアクションセグメンテーションにおけるいくつかの一般的な手法の性能について、系統的に調査を行う。
その結果、データセットがもたらす課題が明らかになりました。
また,大規模な実験により,LOGOデータセットの最先端化が図られている。
データセットとコードは \url{https://github.com/shiyi-zh0408/LOGO } でリリースされる。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Multi-object event graph representation learning for Video Question Answering [4.236280446793381]
本稿では,この制限に対処するため,CLanGと呼ばれる言語イベントグラフ表現学習手法を提案する。
提案手法は,2つの挑戦的ビデオQA, NExT-QA, TGIF-QA-Rデータセットの精度を最大2.2%向上させる。
論文 参考訳(メタデータ) (2024-09-12T04:42:51Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。
スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:59:24Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。