論文の概要: Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task
- arxiv url: http://arxiv.org/abs/2512.10359v1
- Date: Thu, 11 Dec 2025 07:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.2411
- Title: Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task
- Title(参考訳): ビデオ質問応答タスクの合理化のためのツール強化時空間推論
- Authors: Sunqi Fan, Jiashuo Cui, Meng-Hao Guo, Shuojin Yang,
- Abstract要約: VideoQAタスクは、ファンデーションモデルが動的現実のシナリオを効果的に知覚し、理解し、理性的に評価できるかどうかを評価するための重要な遊び場として機能する。
マルチモーダル大言語モデル(MLLM)に包括的ビデオツールキットを装備し,空間推論能力を向上する。
本稿では,時間的および空間的ツールを戦略的にスケジュールし,ビデオの重要領域を段階的にローカライズするStemporal Reasoning Framework(STAR)を提案する。
- 参考スコア(独自算出の注目度): 8.444156994500881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Question Answering (VideoQA) task serves as a critical playground for evaluating whether foundation models can effectively perceive, understand, and reason about dynamic real-world scenarios. However, existing Multimodal Large Language Models (MLLMs) struggle with simultaneously modeling spatial relationships within video frames and understanding the causal dynamics of temporal evolution on complex and reasoning-intensive VideoQA task. In this work, we equip MLLM with a comprehensive and extensible Video Toolkit, to enhance MLLM's spatiotemporal reasoning capabilities and ensure the harmony between the quantity and diversity of tools. To better control the tool invocation sequence and avoid toolchain shortcut issues, we propose a Spatiotemporal Reasoning Framework (STAR) that strategically schedules temporal and spatial tools, thereby progressively localizing the key area in the video. Our STAR framework enhances GPT-4o using lightweight tools, achieving an 8.2% gain on VideoMME and 4.6% on LongVideoBench. We believe that our proposed Video Toolkit and STAR framework make an important step towards building autonomous and intelligent video analysis assistants. The code is publicly available at https://github.com/fansunqi/VideoTool.
- Abstract(参考訳): Video Question Answering (VideoQA) タスクは、ファンデーションモデルが動的現実世界のシナリオを効果的に知覚し、理解し、推論できるかどうかを評価する重要な場として機能する。
しかし、既存のマルチモーダル大言語モデル(MLLM)は、ビデオフレーム内の空間的関係を同時にモデル化し、複雑なビデオQAタスクにおける時間的進化の因果ダイナミクスを理解するのに苦労している。
本研究では,MLLMの時空間推論能力を高め,ツールの量と多様性の調和を確保するため,包括的で拡張可能なビデオツールキットをMLLMに装備する。
ツールの呼び出し順序をよりよく制御し,ツールチェーンのショートカット問題を回避するために,時間的および空間的ツールを戦略的にスケジュールする時空間推論フレームワーク(STAR)を提案する。
当社のSTARフレームワークは軽量ツールによるGPT-4oを強化し,ビデオMMEでは8.2%,LongVideoBenchでは4.6%向上した。
我々は,提案するビデオツールキットとSTARフレームワークが,自律的かつインテリジェントなビデオ分析アシスタントを構築するための重要なステップであると考えている。
コードはhttps://github.com/fansunqi/VideoTool.comで公開されている。
関連論文リスト
- VideoSSR: Video Self-Supervised Reinforcement Learning [62.25888935329454]
RLVR(Reinforcement Learning with Verifiable Rewards)は、MLLM(Multimodal Large Language Models)の映像理解能力を大幅に向上させた。
ビデオ内のリッチで本質的な情報は、高品質で検証可能なトレーニングデータの自己生成に利用できますか?
論文 参考訳(メタデータ) (2025-11-09T08:36:40Z) - VTimeCoT: Thinking by Drawing for Video Temporal Grounding and Reasoning [60.42623437635971]
ビデオの時間的グラウンドと推論のためのトレーニング不要のフレームワークであるVTimeCoTを紹介する。
提案フレームワークは,プログレッシブバーの新しいビジュアルツールとして,プラグアンドプレイプログレッシブバー統合ツールと高効率ハイライトツールの2つを組み込んでいる。
提案手法は,ビデオ時間的グラウンドリングと推論に基づく質問応答のタスクにおいて,Qwen2VL-7BとGPT4oベースラインの両方で大幅な性能向上を示す。
論文 参考訳(メタデータ) (2025-10-16T13:29:02Z) - Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [39.6349428129868]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
ビジュアルツールボックスを使うことで、モデルは必要に応じて新しいビデオフレームを密にサンプリングし、正確なロングビデオ推論のためのマルチモーダルCoTを生成することができる。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。