Fugu-MT 論文翻訳(概要): FineQuest: Adaptive Knowledge-Assisted Sports Video Understanding via Agent-of-Thoughts Reasoning

論文の概要: FineQuest: Adaptive Knowledge-Assisted Sports Video Understanding via Agent-of-Thoughts Reasoning

arxiv url: http://arxiv.org/abs/2509.11796v1
Date: Mon, 15 Sep 2025 11:27:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-16 17:26:23.248811
Title: FineQuest: Adaptive Knowledge-Assisted Sports Video Understanding via Agent-of-Thoughts Reasoning
Title（参考訳）: FineQuest: エージェント・オブ・ソート・推論による適応的知識支援スポーツビデオ理解
Authors: Haodong Chen, Haojian Huang, XinXiang Yin, Dian Shao,
Abstract要約: FineQuestは、認知科学にインスパイアされたデュアルモード推論を活用する最初のトレーニング不要のフレームワークである。 FineQuestには、9つのスポーツにまたがるマルチモーダルスポーツ知識グラフであるSSGraphが組み込まれている。 Gym-QA と Diving-QA という,FinGym と FineDiving のデータセットから得られた2つの新しいスポーツビデオQAベンチマークを紹介した。
参考スコア（独自算出の注目度）: 10.942503187642851
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video Question Answering (VideoQA) based on Large Language Models (LLMs) has shown potential in general video understanding but faces significant challenges when applied to the inherently complex domain of sports videos. In this work, we propose FineQuest, the first training-free framework that leverages dual-mode reasoning inspired by cognitive science: i) Reactive Reasoning for straightforward sports queries and ii) Deliberative Reasoning for more complex ones. To bridge the knowledge gap between general-purpose models and domain-specific sports understanding, FineQuest incorporates SSGraph, a multimodal sports knowledge scene graph spanning nine sports, which encodes both visual instances and domain-specific terminology to enhance reasoning accuracy. Furthermore, we introduce two new sports VideoQA benchmarks, Gym-QA and Diving-QA, derived from the FineGym and FineDiving datasets, enabling diverse and comprehensive evaluation. FineQuest achieves state-of-the-art performance on these benchmarks as well as the existing SPORTU dataset, while maintains strong general VideoQA capabilities.
Abstract（参考訳）: LLM(Large Language Models)に基づくビデオQA(Video Question Answering)は、一般的なビデオ理解において潜在的に有益であるが、スポーツビデオの本質的に複雑な領域に適用した場合、重大な課題に直面している。本研究では、認知科学にインスパイアされた二重モード推論を利用する、最初のトレーニング不要のフレームワークであるFineQuestを提案する。一素直なスポーツクエリに対する反応性推論及び二より複雑なものに対する熟考的推論汎用モデルとドメイン固有のスポーツ理解の知識ギャップを埋めるために、ファインクエストは、9つのスポーツにまたがるマルチモーダルスポーツ知識シーングラフであるSSGraphを組み込んだ。さらに,FinGymデータセットとFinDivingデータセットから派生した,Gym-QAとDiving-QAという2つの新しいスポーツビデオQAベンチマークを導入し,多種多様な総合的な評価を可能にした。 FineQuestはこれらのベンチマークと既存のSPORTUデータセットの最先端のパフォーマンスを達成し、強力な一般的なビデオQA機能を維持している。

関連論文リスト

SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports [21.410115837645318]
SportRは、スポーツインテリジェンスに必要な基本的な理由に基づいてMLLMを訓練し、評価するために設計された最初のマルチスポーツ大規模ベンチマークである。私たちのベンチマークでは,5,017枚の画像と2,101本のビデオのデータセットが提供されている。罰則の決定や戦術の説明など,多段階の推論を必要とする最も先進的なタスクに対して,我々は7,118の高品質な人間による思考の連鎖(Chain of Thought)アノテーションを提供する。
論文参考訳（メタデータ） (2025-11-09T18:55:20Z)
SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [93.73583158211115]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文参考訳（メタデータ） (2025-05-24T18:13:16Z)
ReasVQA: Advancing VideoQA with Imperfect Reasoning Process [38.4638171723351]
textbfReasVQA (Reasoning-enhanced Video Question Answering) は、MLLM(Multimodal Large Language Models)が生成する推論プロセスを活用して、ビデオQAモデルの性能を向上させる新しい手法である。 NExT-QAでは+2.9、STARでは+7.3、IntentQAでは+5.9が大幅に改善された。
論文参考訳（メタデータ） (2025-01-23T10:35:22Z)
Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video [5.885902974241053]
複雑なスポーツシナリオに対する推論は、現在のNLP技術にとって大きな課題となっている。我々の評価は、基本的なルールや歴史的事実に関する単純なクエリから、複雑な文脈固有の推論まで多岐にわたる。既存のスポーツデータセットの包括的概要に基づく新しいベンチマークを提案し,広範なエラー解析を行った。
論文参考訳（メタデータ） (2024-06-21T05:57:50Z)
Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [104.40202007324633]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文参考訳（メタデータ） (2024-01-03T02:22:34Z)
FunQA: Towards Surprising Video Comprehension [64.58663825184958]
本稿では,挑戦的なビデオ質問応答データセットであるFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。 FunQAベンチマークは4.3Kビデオクリップから派生した312KのフリーテキストQAペアで構成されている。
論文参考訳（メタデータ） (2023-06-26T17:59:55Z)
Sports Video Analysis on Large-Scale Data [10.24207108909385]
本稿では,スポーツビデオにおける自動機械記述のモデル化について検討する。スポーツビデオ分析のためのNBAデータセット(NSVA)を提案する。
論文参考訳（メタデータ） (2022-08-09T16:59:24Z)
A Survey on Video Action Recognition in Sports: Datasets, Methods and Applications [60.3327085463545]
本稿では,スポーツ分析のための映像行動認識に関する調査を行う。サッカー、バスケットボール、バレーボール、ホッケー、フィギュアスケート、体操、卓球、ダイビング、バドミントンなど10種以上のスポーツを紹介します。本研究では,サッカー,バスケットボール,卓球,フィギュアスケート動作認識をサポートするPaddlePaddleを用いたツールボックスを開発した。
論文参考訳（メタデータ） (2022-06-02T13:19:36Z)
HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文参考訳（メタデータ） (2021-01-17T11:07:17Z)
Hybrid Dynamic-static Context-aware Attention Network for Action Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。 2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文参考訳（メタデータ） (2020-08-13T15:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。