論文の概要: VideoMiner: Iteratively Grounding Key Frames of Hour-Long Videos via Tree-based Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.06040v1
- Date: Tue, 07 Oct 2025 15:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.321461
- Title: VideoMiner: Iteratively Grounding Key Frames of Hour-Long Videos via Tree-based Group Relative Policy Optimization
- Title(参考訳): VideoMiner: 木に基づくグループ相対的ポリシー最適化による時間長ビデオの繰り返しグラウンド化
- Authors: Xinye Cao, Hongcan Guo, Jiawen Qian, Guoshun Nan, Chao Wang, Yuqi Pan, Tianhao Hou, Xiaojuan Wang, Yutong Gao,
- Abstract要約: VideoMinerがMulti-Modal Large Language Model(MM-LLMs)で1時間ビデオの理解を学習
キーフレームを正確に検出するために,木に基づくグループ相対的ポリシー最適化であるT-GRPOを強化学習法で導入する。
提案するT-GRPOは, 自発的に推論連鎖を生成するために, 驚くほどのインセンティブを与える。
- 参考スコア(独自算出の注目度): 13.234970097206487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding hour-long videos with multi-modal large language models (MM-LLMs) enriches the landscape of human-centered AI applications. However, for end-to-end video understanding with LLMs, uniformly sampling video frames results in LLMs being overwhelmed by a vast amount of irrelevant information as video length increases. Existing hierarchical key frame extraction methods improve the accuracy of video understanding but still face two critical challenges. 1) How can the interference of extensive redundant information in long videos be mitigated? 2) How can a model dynamically adapt to complex hierarchical structures while accurately identifying key frames? To address these issues, we propose VideoMiner, which iteratively segments, captions, and clusters long videos, forming a hierarchical tree structure. The proposed VideoMiner progresses from long videos to events to frames while preserving temporal coherence, effectively addressing the first challenge. To precisely locate key frames, we introduce T-GRPO, a tree-based group relative policy optimization in reinforcement learning method that guides the exploration of the VideoMiner. The proposed T-GRPO is specifically designed for tree structures, integrating spatiotemporal information at the event level while being guided by the question, thus solving the second challenge. We achieve superior performance in all long-video understanding tasks and uncover several interesting insights. Our proposed T-GRPO surprisingly incentivizes the model to spontaneously generate a reasoning chain. Additionally, the designed tree growth auxin dynamically adjusts the expansion depth, obtaining accuracy and efficiency gains. The code is publicly available at https://github.com/caoxinye/VideoMiner.
- Abstract(参考訳): マルチモーダル大言語モデル(MM-LLM)による時間長ビデオの理解は、人間中心のAIアプリケーションの景観を豊かにする。
しかし、LLMを用いたエンドツーエンドのビデオ理解では、動画の長さが増加するにつれて、LLMは膨大な量の無関係情報に圧倒される。
既存の階層的なキーフレーム抽出手法は、ビデオ理解の精度を向上させるが、2つの重要な課題に直面している。
1)長期ビデオにおける冗長な情報の干渉を緩和するにはどうすればよいか?
2)キーフレームを正確に識別しながら、モデルが複雑な階層構造に動的に適応するにはどうすればよいか?
これらの問題に対処するために,ビデオマイナーを提案する。このビデオマイナーは,セグメント,キャプション,クラスタの長いビデオを反復的に生成し,階層的な木構造を形成する。
提案されたVideoMinerは、時間的コヒーレンスを維持しながら、長いビデオからイベント、フレームへと進歩し、最初の課題に効果的に対処する。
キーフレームを正確に特定するために,ビデオマイナの探索をガイドする強化学習法において,木に基づくグループ相対的ポリシー最適化であるT-GRPOを導入する。
提案するT-GRPOは, イベントレベルでの時空間情報を統合することで, ツリー構造に特化して設計されている。
長いビデオ理解タスクにおいて優れたパフォーマンスを実現し、いくつかの興味深い洞察を明らかにします。
提案するT-GRPOは, 自発的に推論連鎖を生成するために, 驚くほどのインセンティブを与える。
さらに、設計されたツリー成長オーキシンは膨張深さを動的に調整し、精度と効率性を得る。
コードはhttps://github.com/caoxinye/VideoMiner.comで公開されている。
関連論文リスト
- Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [79.10678768386752]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding [33.58579390725519]
Video-MTRは、反復的なキーセグメントの選択と質問理解を可能にするために設計された強化されたマルチターン推論フレームワークである。
単一のターンで予測を生成する従来のビデオ推論パイプラインとは異なり、Video-MTRは複数のターンで推論を実行する。
中間推論プロセスを保証するため,新たな二段階報酬システムを導入する。
論文 参考訳(メタデータ) (2025-08-28T06:55:08Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [39.6349428129868]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
ビジュアルツールボックスを使うことで、モデルは必要に応じて新しいビデオフレームを密にサンプリングし、正確なロングビデオ推論のためのマルチモーダルCoTを生成することができる。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos [67.78336281317347]
長文理解は,ビデオデータの冗長度が高く,クエリ非関連情報の豊富さによって複雑になる。
我々は,LLM推論のためのクエリ適応的かつ階層的なビデオ表現を構築する,トレーニング不要なフレームワークであるVideoTreeを提案する。
論文 参考訳(メタデータ) (2024-05-29T15:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。