論文の概要: FineQuest: Adaptive Knowledge-Assisted Sports Video Understanding via Agent-of-Thoughts Reasoning
- arxiv url: http://arxiv.org/abs/2509.11796v1
- Date: Mon, 15 Sep 2025 11:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.248811
- Title: FineQuest: Adaptive Knowledge-Assisted Sports Video Understanding via Agent-of-Thoughts Reasoning
- Title(参考訳): FineQuest: エージェント・オブ・ソート・推論による適応的知識支援スポーツビデオ理解
- Authors: Haodong Chen, Haojian Huang, XinXiang Yin, Dian Shao,
- Abstract要約: FineQuestは、認知科学にインスパイアされたデュアルモード推論を活用する最初のトレーニング不要のフレームワークである。
FineQuestには、9つのスポーツにまたがるマルチモーダルスポーツ知識グラフであるSSGraphが組み込まれている。
Gym-QA と Diving-QA という,FinGym と FineDiving のデータセットから得られた2つの新しいスポーツビデオQAベンチマークを紹介した。
- 参考スコア(独自算出の注目度): 10.942503187642851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Question Answering (VideoQA) based on Large Language Models (LLMs) has shown potential in general video understanding but faces significant challenges when applied to the inherently complex domain of sports videos. In this work, we propose FineQuest, the first training-free framework that leverages dual-mode reasoning inspired by cognitive science: i) Reactive Reasoning for straightforward sports queries and ii) Deliberative Reasoning for more complex ones. To bridge the knowledge gap between general-purpose models and domain-specific sports understanding, FineQuest incorporates SSGraph, a multimodal sports knowledge scene graph spanning nine sports, which encodes both visual instances and domain-specific terminology to enhance reasoning accuracy. Furthermore, we introduce two new sports VideoQA benchmarks, Gym-QA and Diving-QA, derived from the FineGym and FineDiving datasets, enabling diverse and comprehensive evaluation. FineQuest achieves state-of-the-art performance on these benchmarks as well as the existing SPORTU dataset, while maintains strong general VideoQA capabilities.
- Abstract(参考訳): LLM(Large Language Models)に基づくビデオQA(Video Question Answering)は、一般的なビデオ理解において潜在的に有益であるが、スポーツビデオの本質的に複雑な領域に適用した場合、重大な課題に直面している。
本研究では、認知科学にインスパイアされた二重モード推論を利用する、最初のトレーニング不要のフレームワークであるFineQuestを提案する。
一 素直なスポーツクエリに対する反応性推論及び
二 より複雑なものに対する熟考的推論
汎用モデルとドメイン固有のスポーツ理解の知識ギャップを埋めるために、ファインクエストは、9つのスポーツにまたがるマルチモーダルスポーツ知識シーングラフであるSSGraphを組み込んだ。
さらに,FinGymデータセットとFinDivingデータセットから派生した,Gym-QAとDiving-QAという2つの新しいスポーツビデオQAベンチマークを導入し,多種多様な総合的な評価を可能にした。
FineQuestはこれらのベンチマークと既存のSPORTUデータセットの最先端のパフォーマンスを達成し、強力な一般的なビデオQA機能を維持している。
関連論文リスト
- Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video [5.885902974241053]
複雑なスポーツシナリオに対する推論は、現在のNLP技術にとって大きな課題となっている。
我々の評価は、基本的なルールや歴史的事実に関する単純なクエリから、複雑な文脈固有の推論まで多岐にわたる。
既存のスポーツデータセットの包括的概要に基づく新しいベンチマークを提案し,広範なエラー解析を行った。
論文 参考訳(メタデータ) (2024-06-21T05:57:50Z) - Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [104.40202007324633]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。
Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。
質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文 参考訳(メタデータ) (2024-01-03T02:22:34Z) - A Survey on Video Action Recognition in Sports: Datasets, Methods and
Applications [60.3327085463545]
本稿では,スポーツ分析のための映像行動認識に関する調査を行う。
サッカー、バスケットボール、バレーボール、ホッケー、フィギュアスケート、体操、卓球、ダイビング、バドミントンなど10種以上のスポーツを紹介します。
本研究では,サッカー,バスケットボール,卓球,フィギュアスケート動作認識をサポートするPaddlePaddleを用いたツールボックスを開発した。
論文 参考訳(メタデータ) (2022-06-02T13:19:36Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。