論文の概要: Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex
and Professional Sports
- arxiv url: http://arxiv.org/abs/2401.01505v1
- Date: Wed, 3 Jan 2024 02:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 15:21:02.503577
- Title: Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex
and Professional Sports
- Title(参考訳): Sports-QA: 複雑・専門スポーツのための大規模ビデオ質問回答ベンチマーク
- Authors: Haopeng Li, Andong Deng, Qiuhong Ke, Jun Liu, Hossein Rahmani, Yulan
Guo, Bernt Schiele, Chen Chen
- Abstract要約: スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。
Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。
質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
- 参考スコア(独自算出の注目度): 90.79212954022218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning over sports videos for question answering is an important task with
numerous applications, such as player training and information retrieval.
However, this task has not been explored due to the lack of relevant datasets
and the challenging nature it presents. Most datasets for video question
answering (VideoQA) focus mainly on general and coarse-grained understanding of
daily-life videos, which is not applicable to sports scenarios requiring
professional action understanding and fine-grained motion analysis. In this
paper, we introduce the first dataset, named Sports-QA, specifically designed
for the sports VideoQA task. The Sports-QA dataset includes various types of
questions, such as descriptions, chronologies, causalities, and counterfactual
conditions, covering multiple sports. Furthermore, to address the
characteristics of the sports VideoQA task, we propose a new Auto-Focus
Transformer (AFT) capable of automatically focusing on particular scales of
temporal information for question answering. We conduct extensive experiments
on Sports-QA, including baseline studies and the evaluation of different
methods. The results demonstrate that our AFT achieves state-of-the-art
performance.
- Abstract(参考訳): 質問応答のためのスポーツビデオの推論は、プレイヤーのトレーニングや情報検索など、多くのアプリケーションで重要なタスクである。
しかし、関連するデータセットの欠如と、それがもたらす挑戦的な性質のために、このタスクは検討されていない。
ビデオ質問応答(VideoQA)のためのほとんどのデータセットは、専門的なアクション理解と微粒な動き分析を必要とするスポーツシナリオには適用できない日常ビデオの一般的および粗粒度の理解に焦点を当てている。
本稿では,スポーツビデオQAタスクに特化して設計されたSports-QAという最初のデータセットを紹介する。
Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。
さらに,スポーツビデオQAタスクの特徴に対処するために,質問応答のための時間情報の特定の尺度に自動的にフォーカスできるオートフォーカストランス (AFT) を提案する。
我々は,ベースライン研究や異なる手法の評価など,スポーツQAに関する広範な実験を行った。
その結果,AFTは最先端の性能を達成できた。
関連論文リスト
- Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video [5.885902974241053]
複雑なスポーツシナリオに対する推論は、現在のNLP技術にとって大きな課題となっている。
我々の評価は、基本的なルールや歴史的事実に関する単純なクエリから、複雑な文脈固有の推論まで多岐にわたる。
既存のスポーツデータセットの包括的概要に基づく新しいベンチマークを提案し,広範なエラー解析を行った。
論文 参考訳(メタデータ) (2024-06-21T05:57:50Z) - FunQA: Towards Surprising Video Comprehension [64.58663825184958]
本稿では,挑戦的なビデオ質問応答データセットであるFunQAを紹介する。
FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。
FunQAベンチマークは4.3Kビデオクリップから派生した312KのフリーテキストQAペアで構成されている。
論文 参考訳(メタデータ) (2023-06-26T17:59:55Z) - TG-VQA: Ternary Game of Video Question Answering [33.180788803602084]
ビデオ質問応答は、その中のアライメントセマンティクスを推論することで、ビデオコンテンツに関する質問に答えることを目的としている。
本研究では,特定のインタラクション戦略を持つ複数のプレイヤー間の複雑な関係をシミュレートするゲーム理論を革新的に活用する。
具体的には,ビデオQA固有のインタラクション戦略を慎重に設計し,ラベルに重きを置くことなく,微粒な視覚言語アライメントラベルを数学的に生成することができる。
論文 参考訳(メタデータ) (2023-05-17T08:42:53Z) - A Survey on Video Action Recognition in Sports: Datasets, Methods and
Applications [60.3327085463545]
本稿では,スポーツ分析のための映像行動認識に関する調査を行う。
サッカー、バスケットボール、バレーボール、ホッケー、フィギュアスケート、体操、卓球、ダイビング、バドミントンなど10種以上のスポーツを紹介します。
本研究では,サッカー,バスケットボール,卓球,フィギュアスケート動作認識をサポートするPaddlePaddleを用いたツールボックスを開発した。
論文 参考訳(メタデータ) (2022-06-02T13:19:36Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - Sports Video: Fine-Grained Action Detection and Classification of Table
Tennis Strokes from Videos for MediaEval 2021 [0.0]
このタスクは、ビデオからのきめ細かいアクション検出と分類に取り組む。
主に卓球の試合の記録に焦点が当てられている。
本研究は,スポーツのパフォーマンスを解析するために,スポーツコーチや選手のためのツールを作成することを目的としている。
論文 参考訳(メタデータ) (2021-12-16T10:17:59Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。