論文の概要: VideoDeepResearch: Long Video Understanding With Agentic Tool Using
- arxiv url: http://arxiv.org/abs/2506.10821v1
- Date: Thu, 12 Jun 2025 15:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.818289
- Title: VideoDeepResearch: Long Video Understanding With Agentic Tool Using
- Title(参考訳): VideoDeepResearch:エージェントツールを使った長いビデオ理解
- Authors: Huaying Yuan, Zheng Liu, Junjie Zhou, Ji-Rong Wen, Zhicheng Dou,
- Abstract要約: LVU(Long Video Understanding)は、現在のマルチモーダル大言語モデル(MLLM)において重要な課題である。
本稿では,ビデオ理解のための新しいエージェントフレームワークであるVideoDeepResearchを紹介する。
各LVUタスクに対して、ツールは推論を通じて問題解決戦略を定式化し、ツール使用による必須映像コンテンツへのアクセスと活用を選択的に行う。
- 参考スコア(独自算出の注目度): 63.572469197971735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long video understanding (LVU) presents a significant challenge for current multi-modal large language models (MLLMs) due to the task's inherent complexity and context window constraint. It is widely assumed that addressing LVU tasks requires foundation MLLMs with extended context windows, strong visual perception capabilities, and proficient domain expertise. In this work, we challenge this common belief by introducing VideoDeepResearch, a novel agentic framework for long video understanding. Our approach relies solely on a text-only large reasoning model (LRM) combined with a modular multi-modal toolkit, including multimodal retrievers and visual perceivers, all of which are readily available in practice. For each LVU task, the system formulates a problem-solving strategy through reasoning, while selectively accessing and utilizing essential video content via tool using. We conduct extensive experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench. Our results demonstrate that VideoDeepResearch achieves substantial improvements over existing MLLM baselines, surpassing the previous state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and LongVideoBench, respectively. These findings highlight the promise of agentic systems in overcoming key challenges in LVU problems.
- Abstract(参考訳): 長いビデオ理解(LVU)は、タスク固有の複雑さとコンテキストウィンドウの制約のため、現在のマルチモーダルな大規模言語モデル(MLLM)にとって重要な課題である。
LVUタスクに対処するには、拡張コンテキストウィンドウ、強力な視覚知覚能力、熟練したドメイン知識を備えた基礎MLLMが必要であると広く考えられている。
本研究では,ビデオ理解のための新しいエージェントフレームワークであるVideoDeepResearchを導入することで,この共通の信念に挑戦する。
提案手法は,テキストのみの大規模推論モデル(LRM)と,マルチモーダルレトリバーや視覚知覚器を含むモジュール型マルチモーダルツールキットの組み合わせにのみ依存する。
各LVUタスクに対して、ツールは推論を通じて問題解決戦略を定式化し、ツール使用による必須映像コンテンツへのアクセスと活用を選択的に行う。
MLVU, Video-MME, LVBenchなど, 一般的なLVUベンチマークについて広範な実験を行った。
その結果, VideoDeepResearchは従来のMLLMベースラインを9.6%, 6.6%, 3.9%, MLVU (test), LVBench, LongVideoBenchの3。
これらの知見は,LVU問題において重要な課題を克服する上で,エージェントシステムの可能性を浮き彫りにしている。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - MLVU: Benchmarking Multi-task Long Video Understanding [28.35597611731375]
MLVU (Multi-task Long Video Understanding Benchmark) と呼ばれる新しいベンチマークを提案する。
MLVUは以下の重要な値を示す: textit1) ビデオ長の相当かつ柔軟な拡張により、ベンチマークは幅広い期間にわたってLVUのパフォーマンスを評価することができる。
23の最新のMLLMによる実証研究は、今日の技術を改善するための重要な余地を明らかにしている。
論文 参考訳(メタデータ) (2024-06-06T17:09:32Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。