論文の概要: TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding
- arxiv url: http://arxiv.org/abs/2508.04369v2
- Date: Thu, 07 Aug 2025 15:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 14:01:14.032599
- Title: TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding
- Title(参考訳): TSPO:長期ビデオ言語理解のための時間サンプリングポリシー最適化
- Authors: Canhui Tang, Zifan Han, Hongbo Sun, Sanping Zhou, Xuchong Zhang, Xin Wei, Ye Yuan, Jinglin Xu, Hao Sun,
- Abstract要約: MLLM(Multi- Language Large Language Models)は、視覚に基づくタスクにおいて大きな進歩を見せている。
本稿では、MLLMの長文ビデオ言語理解を強化学習により促進する時間ポリシーサンプリング最適化(TSPO)を提案する。
我々のTSPOは、複数の長大ビデオ理解ベンチマークで最先端のパフォーマンスを達成し、異なる最先端ビデオMLLM間での転送能力を示す。
- 参考スコア(独自算出の注目度): 26.463523465270097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated significant progress in vision-language tasks, yet they still face challenges when processing long-duration video inputs. The limitation arises from MLLMs' context limit and training costs, necessitating sparse frame sampling before feeding videos into MLLMs. Existing video MLLMs adopt training-free uniform sampling or keyframe search, which may miss critical events or be constrained by the pre-trained models' event understanding capabilities. Meanwhile, building a training-based method remains challenging due to the unsupervised and non-differentiable nature of sparse frame sampling. To address these problems, we propose Temporal Sampling Policy Optimization (TSPO), advancing MLLMs' long-form video-language understanding via reinforcement learning. Specifically, we first propose a trainable event-aware temporal agent, which captures event-query correlation for performing probabilistic keyframe selection. Then, we propose the TSPO reinforcement learning paradigm, which models keyframe selection and language generation as a joint decision-making process, enabling end-to-end group relative optimization with efficient rule-based rewards. Furthermore, for the TSPO's training, we propose a long video training data construction pipeline with comprehensive temporal data and video Needle-in-a-Haystack data. Finally, we incorporate rule-based answering accuracy and temporal locating reward mechanisms to optimize the temporal sampling policy. Comprehensive experiments show that our TSPO achieves state-of-the-art performance across multiple long video understanding benchmarks, and shows transferable ability across different cutting-edge Video-MLLMs. Our code is available at https://github.com/Hui-design/TSPO
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚言語タスクにおいて大きな進歩を見せている。
この制限はMLLMのコンテキスト制限とトレーニングコストから生じ、MLLMにビデオを送る前にスパースフレームサンプリングを必要とする。
既存のビデオMLLMでは、トレーニング不要の均一サンプリングやキーフレーム検索を採用しており、重要なイベントを見逃したり、事前訓練されたモデルのイベント理解能力に制約される可能性がある。
一方、スパースフレームサンプリングの非教師的かつ非差別的な性質のため、トレーニングベースの手法の構築は依然として困難である。
これらの問題に対処するために,MLLMの長文ビデオ言語理解を強化学習により進めるTSPO(Temporal Smpling Policy Optimization)を提案する。
具体的には、まず、確率的鍵フレーム選択を行うためのイベントクエリ相関をキャプチャする、トレーニング可能なイベント認識時間エージェントを提案する。
そこで我々は,キーフレームの選択と言語生成を共同決定プロセスとしてモデル化し,効率的なルールベース報酬を用いたグループ間相対最適化を実現するTSPO強化学習パラダイムを提案する。
さらに、TSPOのトレーニングのために、時間的包括的データとビデオのNeeddle-in-a-Haystackデータを用いた長いビデオトレーニングデータ構築パイプラインを提案する。
最後に、時間的サンプリングポリシーを最適化するために、ルールベースの応答精度と時間的位置情報報酬機構を組み込んだ。
包括的実験により、TSPOは複数の長時間ビデオ理解ベンチマークで最先端のパフォーマンスを達成し、異なる最先端ビデオMLLM間で転送可能な能力を示す。
私たちのコードはhttps://github.com/Hui-design/TSPOで利用可能です。
関連論文リスト
- How Important are Videos for Training Video LLMs? [55.965474658745315]
画像のみのトレーニングでは,ビデオLLMの方が時間的推論能力が高いことが示唆された。
本稿では,注釈付き画像のシーケンスと時間的機能に着目した質問を含む簡易な微調整手法を提案する。
これは、現在のモデルによるリアルタイムビデオに見られる豊富な時間的特徴の最適部分利用を示唆している。
論文 参考訳(メタデータ) (2025-06-07T21:32:19Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - TEMPLE:Temporal Preference Learning of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment [48.94844127553743]
TEMPLEはビデオ大言語モデルの時間的推論能力を高めるための体系的なフレームワークである。
提案手法は,比較的小さな自己生成DPOデータを用いて,複数のベンチマークでビデオLLM性能を継続的に改善する。
我々のTEMPLEは、SFTベースの手法をスケーラブルかつ効率的に補完するものであり、信頼性の高いビデオLLMを開発するための道を開くものである。
論文 参考訳(メタデータ) (2025-03-21T08:00:29Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos [15.127197238628396]
LifelongMemoryは、自然言語による質問応答と検索を通じて、長い形式のエゴシックなビデオメモリにアクセスするための新しいフレームワークである。
Ego4D の自然言語クエリ (NLQ) の課題に対して,本手法は質問応答のためのベンチマークの最先端性能を実現し,高い競争力を発揮する。
論文 参考訳(メタデータ) (2023-12-07T19:19:25Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。