論文の概要: Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning
- arxiv url: http://arxiv.org/abs/2508.04416v1
- Date: Wed, 06 Aug 2025 13:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.726616
- Title: Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning
- Title(参考訳): ビデオについて考える:ロングビデオ推論のためのマルチモーダルツール強化型強化学習
- Authors: Haoji Zhang, Xin Gu, Jiawen Li, Chixiang Ma, Sule Bai, Chubin Zhang, Bowen Zhang, Zhichao Zhou, Dongliang He, Yansong Tang,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
- 参考スコア(独自算出の注目度): 29.811030252357195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The video reasoning ability of multimodal large language models (MLLMs) is crucial for downstream tasks like video question answering and temporal grounding. While recent approaches have explored text-based chain-of-thought (CoT) reasoning for MLLMs, these methods often suffer from limited cross-modal interaction and increased hallucination, especially with longer videos or reasoning chains. To address these challenges, we propose Video Intelligence via Tool-Augmented Learning (VITAL), a novel end-to-end agentic video reasoning framework. With a visual toolbox, the model can densely sample new video frames on demand and generate multimodal CoT for precise long video reasoning. We observe that temporal grounding and question answering are mutually beneficial for video understanding tasks. Therefore, we construct two high-quality multi-task video reasoning datasets MTVR-CoT-72k for supervised fine-tuning and MTVR-RL-110k for reinforcement learning. Moreover, we propose a Difficulty-aware Group Relative Policy Optimization algorithm (DGRPO) to mitigate difficulty imbalance in multi-task reinforcement learning. Extensive experiments on 11 challenging video understanding benchmarks demonstrate the advanced reasoning ability of VITAL, outperforming existing methods in video question answering and temporal grounding tasks, especially in long video scenarios. All code, data and model weight will be made publicly available.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の動画推論能力は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
近年のアプローチでは、MLLMのテキストベースの連鎖推論(CoT)が検討されているが、これらの手法は、特に長いビデオや推論の連鎖において、クロスモーダル相互作用の制限と幻覚の増大に悩まされることが多い。
これらの課題に対処するため,ツール強化学習(VITAL)によるビデオインテリジェンスを提案する。
ビジュアルツールボックスを使うことで、モデルは必要に応じて新しいビデオフレームを密にサンプリングし、正確なロングビデオ推論のためのマルチモーダルCoTを生成することができる。
時間的根拠付けと質問応答は相互にビデオ理解作業に有用である。
そこで我々は,教師付き微調整用MTVR-CoT-72kと強化学習用MTVR-RL-110kの2つの高品質なマルチタスクビデオ推論データセットを構築した。
さらに,マルチタスク強化学習における難易度不均衡を軽減するために,DGRPO(Difficulty-Aware Group Relative Policy Optimization)アルゴリズムを提案する。
ビデオ理解ベンチマーク11の大規模な実験は、VITALの高度な推論能力を示し、ビデオ質問応答や時間的グラウンドタスク、特に長いビデオシナリオにおいて、既存の手法よりも優れていた。
すべてのコード、データ、モデルの重み付けが公開されます。
関連論文リスト
- TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding [26.463523465270097]
MLLM(Multi- Language Large Language Models)は、視覚に基づくタスクにおいて大きな進歩を見せている。
本稿では、MLLMの長文ビデオ言語理解を強化学習により促進する時間ポリシーサンプリング最適化(TSPO)を提案する。
我々のTSPOは、複数の長大ビデオ理解ベンチマークで最先端のパフォーマンスを達成し、異なる最先端ビデオMLLM間での転送能力を示す。
論文 参考訳(メタデータ) (2025-08-06T12:03:36Z) - SiLVR: A Simple Language-based Video Reasoning Framework [71.77141065418238]
簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。
第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。
第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
論文 参考訳(メタデータ) (2025-05-30T17:59:19Z) - VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning [33.37714717781103]
VideoMindは、ビデオ理解のための新しいビデオ言語エージェントである。
ビデオの時間的推論に不可欠な機能を特定し,ロールベースのエージェントワークフローを開発する。
軽量なLoRAアダプタによるシームレスなロールスイッチングを実現する新しいChain-of-LoRA戦略を提案する。
論文 参考訳(メタデータ) (2025-03-17T17:59:33Z) - Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。
近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。
本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文 参考訳(メタデータ) (2024-12-26T17:53:14Z) - SEAL: Semantic Attention Learning for Long Video Representation [31.994155533019843]
本稿では,長編ビデオの新たな統一表現であるセマンティック・アテンション・ラーニング(SEAL)を紹介する。
計算複雑性を低減するために、長いビデオは3つの異なるタイプのセマンティックエンティティに分解される。
我々の表現は多用途であり、様々な長いビデオ理解タスクに応用できる。
論文 参考訳(メタデータ) (2024-12-02T18:46:12Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos [35.974750867072345]
本稿では,長めの自己中心型ビデオにおけるMH-VidQA(Multi-Hop Video Question Answering)の問題について考察する。
時間的エビデンスを伴う複数ホップ質問応答ペアを生成するための自動パイプラインを開発する。
次に,大規模言語モデル (GeLM) を用いたグラウンディング散乱証拠 (Gunding Scattered Evidence with Large Language Model) と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-08-26T17:58:47Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。