Fugu-MT 論文翻訳(概要): VideoDeepResearch: Long Video Understanding With Agentic Tool Using

論文の概要: VideoDeepResearch: Long Video Understanding With Agentic Tool Using

arxiv url: http://arxiv.org/abs/2506.10821v1
Date: Thu, 12 Jun 2025 15:39:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.818289
Title: VideoDeepResearch: Long Video Understanding With Agentic Tool Using
Title（参考訳）: VideoDeepResearch:エージェントツールを使った長いビデオ理解
Authors: Huaying Yuan, Zheng Liu, Junjie Zhou, Ji-Rong Wen, Zhicheng Dou,
Abstract要約: LVU(Long Video Understanding)は、現在のマルチモーダル大言語モデル(MLLM)において重要な課題である。本稿では,ビデオ理解のための新しいエージェントフレームワークであるVideoDeepResearchを紹介する。各LVUタスクに対して、ツールは推論を通じて問題解決戦略を定式化し、ツール使用による必須映像コンテンツへのアクセスと活用を選択的に行う。
参考スコア（独自算出の注目度）: 63.572469197971735
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long video understanding (LVU) presents a significant challenge for current multi-modal large language models (MLLMs) due to the task's inherent complexity and context window constraint. It is widely assumed that addressing LVU tasks requires foundation MLLMs with extended context windows, strong visual perception capabilities, and proficient domain expertise. In this work, we challenge this common belief by introducing VideoDeepResearch, a novel agentic framework for long video understanding. Our approach relies solely on a text-only large reasoning model (LRM) combined with a modular multi-modal toolkit, including multimodal retrievers and visual perceivers, all of which are readily available in practice. For each LVU task, the system formulates a problem-solving strategy through reasoning, while selectively accessing and utilizing essential video content via tool using. We conduct extensive experiments on popular LVU benchmarks, including MLVU, Video-MME, and LVBench. Our results demonstrate that VideoDeepResearch achieves substantial improvements over existing MLLM baselines, surpassing the previous state-of-the-art by 9.6%, 6.6%, and 3.9% on MLVU (test), LVBench, and LongVideoBench, respectively. These findings highlight the promise of agentic systems in overcoming key challenges in LVU problems.
Abstract（参考訳）: 長いビデオ理解(LVU)は、タスク固有の複雑さとコンテキストウィンドウの制約のため、現在のマルチモーダルな大規模言語モデル(MLLM)にとって重要な課題である。 LVUタスクに対処するには、拡張コンテキストウィンドウ、強力な視覚知覚能力、熟練したドメイン知識を備えた基礎MLLMが必要であると広く考えられている。本研究では,ビデオ理解のための新しいエージェントフレームワークであるVideoDeepResearchを導入することで,この共通の信念に挑戦する。提案手法は,テキストのみの大規模推論モデル(LRM)と,マルチモーダルレトリバーや視覚知覚器を含むモジュール型マルチモーダルツールキットの組み合わせにのみ依存する。各LVUタスクに対して、ツールは推論を通じて問題解決戦略を定式化し、ツール使用による必須映像コンテンツへのアクセスと活用を選択的に行う。 MLVU, Video-MME, LVBenchなど, 一般的なLVUベンチマークについて広範な実験を行った。その結果, VideoDeepResearchは従来のMLLMベースラインを9.6%, 6.6%, 3.9%, MLVU (test), LVBench, LongVideoBenchの3。これらの知見は,LVU問題において重要な課題を克服する上で,エージェントシステムの可能性を浮き彫りにしている。

関連論文リスト

Free-MoRef: Instantly Multiplexing Context Perception Capabilities of Video-MLLMs within Single Inference [88.57742986765238]
Free-MoRefは、ビデオMLLMのコンテキスト認識能力を多重化するトレーニング不要のアプローチである。実験によると、Free-MoRefは1つのA100 GPUで圧縮することなく、2$times$から8$times$の入力フレームを完全に認識できる。
論文参考訳（メタデータ） (2025-08-04T07:31:10Z)
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。 InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-01-21T18:59:00Z)
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
大規模言語モデル(LLM)は、画像やビデオなどの視覚的データの強力な理解を示すマルチモーダルLLMの作成を可能にする。多様な効率要件を満たすマルチモーダルLCMの学習自由適応推論法を提案する。
論文参考訳（メタデータ） (2024-12-04T11:47:57Z)
MLVU: Benchmarking Multi-task Long Video Understanding [28.35597611731375]
MLVU (Multi-task Long Video Understanding Benchmark) と呼ばれる新しいベンチマークを提案する。 MLVUは以下の重要な値を示す: textit1) ビデオ長の相当かつ柔軟な拡張により、ベンチマークは幅広い期間にわたってLVUのパフォーマンスを評価することができる。 23の最新のMLLMによる実証研究は、今日の技術を改善するための重要な余地を明らかにしている。
論文参考訳（メタデータ） (2024-06-06T17:09:32Z)
Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文参考訳（メタデータ） (2024-05-22T16:25:03Z)
Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-03-25T17:59:09Z)
LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs [22.696090318037925]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文参考訳（メタデータ） (2024-02-21T05:56:52Z)
Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。 Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文参考訳（メタデータ） (2023-12-29T01:56:17Z)
TinyLVLM-eHub: Towards Comprehensive and Efficient Evaluation for Large Vision-Language Models [86.85389322710674]
この研究は、LVLM(Large Vision-Language Models)の早期かつ総合的な評価を提示する。 LVLM-eHubの軽量版であるTiny LVLM-eHubを提案する。視覚的知覚、視覚的知識獲得、視覚的推論、視覚的常識、物体幻覚、具体的知能の6つのカテゴリの体系的な評価を提供する。
論文参考訳（メタデータ） (2023-08-07T17:17:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。