論文の概要: Towards Temporal Compositional Reasoning in Long-Form Sports Videos
- arxiv url: http://arxiv.org/abs/2604.22226v1
- Date: Fri, 24 Apr 2026 05:02:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.345893
- Title: Towards Temporal Compositional Reasoning in Long-Form Sports Videos
- Title(参考訳): 長期スポーツビデオにおける時間的構成推論に向けて
- Authors: Siyu Cao, Lu Zhang, Ruizhe Zeng, Zhi-yong Liu,
- Abstract要約: CoTR(Chain-of-Time Reasoning)は、時間的根拠を持つ証拠組成の過程として推論を扱う。
CoTRは、強いMLLMベースラインよりも時間的組成推論とステップワイズ基底品質を一貫して改善する。
- 参考スコア(独自算出の注目度): 5.5825182710791275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sports videos are a challenging domain for multimodal understanding because they involve complex and dynamic human activities. Despite rapid progress in Multimodal Large Language Models (MLLMs), long-horizon reasoning in sports videos remains difficult, as answering questions requires both locating temporally sparse evidence and integrating it into reasoning. We attribute this limitation to two closely coupled factors: insufficient supervision over temporally dispersed evidence, and the lack of methods that require models to identify, localize, and justify temporal evidence. To address these gaps, we introduce SportsTime, a large-scale benchmark for long-form sports video understanding, comprising 14K+ open-ended QA pairs and 50K+ step-wise temporal evidence annotations. Building on SportsTime, we propose Chain-of-Time Reasoning (CoTR), which treats reasoning as a process of temporally grounded evidence composition. Specifically, during training, CoTR introduces a temporal-reward GRPO to encourage temporally grounded reasoning. During inference, it employs an anchor-observe-infer evidence-seeking loop to iteratively localize, verify, and compose temporal evidence before producing the final answer. Experiments demonstrate the usefulness of SportsTime as a benchmark and the effectiveness of CoTR, which consistently improves temporal compositional reasoning and step-wise grounding quality over strong MLLM baselines.
- Abstract(参考訳): スポーツビデオは、複雑でダイナミックな人間の活動を含むため、マルチモーダルな理解にとって困難な領域である。
MLLM(Multimodal Large Language Models)の急速な進歩にもかかわらず、スポーツビデオにおける長期的推論は依然として困難であり、質問に答えるためには、時間的にまばらな証拠の配置と推論への統合の両方が必要である。
この制限は、時間的に分散した証拠に対する監督の不十分さと、時間的証拠を識別、ローカライズ、正当化するモデルを必要とする方法の欠如という、密接に結びついた2つの要因に起因している。
これらのギャップに対処するために,14K以上のオープンエンドQAペアと50K以上のステップワイド時間的エビデンスアノテーションを含む,長期スポーツビデオ理解のための大規模ベンチマークであるSportsTimeを紹介した。
そこで,SportsTime をベースとしたChain-of-Time Reasoning (CoTR) を提案する。
特に訓練中、CoTRは時間的根拠に基づく推論を促進するための時間的回帰GRPOを導入する。
推測中は、最終回答を生成する前に時間的証拠を反復的に局所化し、検証し、構成するために、アンカー・オブザーブ・インファーエビデンス探索ループを用いる。
ベンチマークとしてのSportsTimeの有用性とCoTRの有効性について実験を行った。
関連論文リスト
- Structured Causal Video Reasoning via Multi-Objective Alignment [102.61829546891543]
そこで本稿では,解析段階に先立って,構造化イベントファクト (Structured Event Facts) と命名した,健全なイベントとその因果関係のコンパクトな表現を提案する。
この構造化された事前は、簡潔で因果的根拠のある推論を促進するための明示的な制約として機能する。
我々はCausalFact-60Kと4段階のトレーニングパイプラインを紹介し、事実のアライメント、フォーマットのウォームスタート、思考のウォームスタート、強化学習に基づくポストトレーニングを含む。
論文 参考訳(メタデータ) (2026-04-06T04:49:30Z) - Process-of-Thought Reasoning for Videos [33.74677144833003]
Process-of-Thought (PoT) Reasoning for Videosは、ビデオ推論を軽量で検証可能なステップのシーケンスに構造化することで、推論プロセスを明確にするフレームワークである。
PoT は (i) 時間的エビデンス選択、 (ii) ステップワイズ状態更新、 (iii) 制限された応答合成をインターリーブし、ビデオエビデンスのトレーサビリティを維持しながら仮説を段階的に洗練することを可能にする。
論文 参考訳(メタデータ) (2026-02-07T20:25:46Z) - Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding [56.7383554589569]
人間のような知性には長いビデオ理解が不可欠であり、時間的文脈を超越したコヒーレントな認識と推論を可能にする。
強化学習に基づく投機的時間的推論フレームワークであるSpecTempを提案する。
我々はSpecTempが競争精度を維持するだけでなく、既存の思考とフレームの手法と比較して推論を著しく加速することを示した。
論文 参考訳(メタデータ) (2025-11-30T09:27:59Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - StreamingCoT: A Dataset for Temporal Dynamics and Multimodal Chain-of-Thought Reasoning in Streaming VideoQA [60.86024022291499]
ストリーミングビデオストリームにおける時間的に進化する推論のために明示的に設計された最初のデータセットであるStreamingCoTを紹介する。
本フレームワークは,秒単位の高密度な記述を生成し,類似性融合により時間依存性のセマンティックセグメントを構築する。
このデータセットは、ストリーミングビデオ理解、複雑な時間的推論、マルチモーダル推論の研究を促進する基盤を確立する。
論文 参考訳(メタデータ) (2025-10-29T09:47:38Z) - LeAdQA: LLM-Driven Context-Aware Temporal Grounding for Video Question Answering [10.060267989615813]
本稿では,これらのギャップを埋める斬新な手法であるLeAdQAを紹介する。
NExT-QA, IntentQA, NExT-GQAに関する実験により, 本手法の正確な視覚的基盤化は, 映像検索関係の理解を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-07-20T01:57:00Z) - VITED: Video Temporal Evidence Distillation [49.38292490256531]
そこで我々は,チェーン・オブ・エビデンス推論による複雑なビデオ質問応答について検討した。
モデルは、固定数のフレームを均一にサンプリングするため、多段階の推論に苦労する。
本稿では,既存のビデオQAデータセットをエビデンス・アソシエーション・チェーンで拡張するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T06:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。