論文の概要: TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.03963v1
- Date: Wed, 03 Dec 2025 16:57:00 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:07:03.88892
- Title: TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task Reinforcement Learning
- Title(参考訳): TempR1:Temporal-Aware Multi-Task Reinforcement LearningによるMLLMの時間的理解の改善
- Authors: Tao Wu, Li Yang, Gen Zhan, Yiting Liao, Junlin Li, Deliang Fu, Li Zhang, Limin Wang,
- Abstract要約: MLLM(Multimodal Large Language Models)の時間的理解の促進は,映像解析の進歩に不可欠である。
本研究では,MLLMの時間的理解を体系的に強化する時間的マルチタスク強化学習フレームワークであるTempR1を提案する。
- 参考スコア(独自算出の注目度): 24.953825211442126
- License:
- Abstract: Enhancing the temporal understanding of Multimodal Large Language Models (MLLMs) is essential for advancing long-form video analysis, enabling tasks such as temporal localization, action detection, and time-sensitive question answering. While reinforcement learning (RL) has recently been explored for improving temporal reasoning, existing approaches are often confined to limited task types and data, restricting their generalization across diverse temporal understanding scenarios. To address this challenge, we present TempR1, a temporal-aware multi-task reinforcement learning framework that systematically strengthens MLLMs' temporal comprehension. We curate a multi-task corpus that exposes the model to diverse temporal structures and semantics, and build upon the Group Relative Policy Optimization (GRPO) algorithm to achieve stable and effective cross-task optimization. Specifically, we categorize temporal tasks into three correspondence types between predicted intervals and ground-truth instances, and design tailored localization rewards for each, enabling TempR1 to capture fine-grained temporal dependencies and adapt to different temporal patterns. Extensive experiments demonstrate that TempR1 attains state-of-the-art performance across multiple benchmarks. Moreover, its joint optimization over complementary tasks yields a strong synergistic effect, enhancing both generalization and single-task performance, establishing a scalable and principled paradigm for temporal reasoning in MLLMs.
- Abstract(参考訳): 多モーダル大規模言語モデル(MLLM)の時間的理解の促進は、時間的局所化、行動検出、時間感応的な質問応答などのタスクを可能にする、長期ビデオ解析の進歩に不可欠である。
強化学習(RL)は最近、時間的推論を改善するために研究されているが、既存のアプローチはタスクタイプやデータに限られており、様々な時間的理解シナリオにまたがる一般化が制限されている。
本研究では,MLLMの時間的理解を体系的に強化する時間的マルチタスク強化学習フレームワークであるTempR1を提案する。
多様な時間構造やセマンティクスにモデルを公開するマルチタスクコーパスをキュレートし、グループ相対ポリシー最適化(GRPO)アルゴリズムに基づいて、安定的で効果的なクロスタスク最適化を実現する。
具体的には,時間的タスクを予測間隔と地中実例の3つの対応タイプに分類し,それぞれの局所化報酬を調整し,TempR1が微粒な時間的依存を捕捉し,異なる時間的パターンに適応できるようにする。
大規模な実験により、TempR1は複数のベンチマークで最先端のパフォーマンスを実現している。
さらに、相補的タスクに対する共同最適化は、強力な相乗効果をもたらし、一般化と単一タスクのパフォーマンスを向上し、MLLMにおける時間的推論のためのスケーラブルで原則化されたパラダイムを確立する。
関連論文リスト
- DaMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMs [5.074812070492738]
本稿では,正確な時間的推論とマルチモーダル理解を目的とした,データ効率のよいビデオLLMであるDaMOを紹介する。
構造化された4段階のプログレッシブトレーニングパラダイムを通じてDaMOをトレーニングし、マルチモーダルアライメント、セマンティックグラウンド、時間的推論機能を備えたモデルを段階的に装備する。
我々の研究は、データ効率の良いビデオ言語モデリングのための有望な方向性を確立する。
論文 参考訳(メタデータ) (2025-06-13T08:13:05Z) - Hierarchical Relation-augmented Representation Generalization for Few-shot Action Recognition [43.84348967231349]
アクション認識は、新しいアクションカテゴリーをほとんど見ない形で認識することを目的としている。
既存の手法は通常、フレーム間の時間的モデリング戦略を設計することで、各ビデオのフレームレベル表現を学習する。
FSARのための階層的関係強化表現一般化フレームワークHR2G-shotを提案する。
論文 参考訳(メタデータ) (2025-04-14T10:23:22Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。
既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。
時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文 参考訳(メタデータ) (2025-03-12T11:45:11Z) - TempoGPT: Enhancing Time Series Reasoning via Quantizing Embedding [13.996105878417204]
本稿では,マルチモーダル時系列データ構築手法とマルチモーダル時系列言語モデル(TLM, TempoGPT)を提案する。
ホワイトボックスシステム内の変数-システム関係を解析することにより,複雑な推論タスクのためのマルチモーダルデータを構築する。
広範な実験により、TempoGPTは時間的情報を正確に知覚し、結論を論理的に推論し、構築された複雑な時系列推論タスクにおける最先端の処理を達成することが示されている。
論文 参考訳(メタデータ) (2025-01-13T13:47:05Z) - Multi-Patch Prediction: Adapting LLMs for Time Series Representation
Learning [22.28251586213348]
aLLM4TSは、時系列表現学習にLarge Language Models(LLM)を適用する革新的なフレームワークである。
われわれのフレームワークの特筆すべき要素はパッチワイドデコーディング層である。
論文 参考訳(メタデータ) (2024-02-07T13:51:26Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - USTEP: Spatio-Temporal Predictive Learning under A Unified View [62.58464029270846]
UTEP(Unified S-Temporal Predictive Learning)は,マイクロテンポラリスケールとマクロテンポラリスケールを統合した再帰的および再帰的フリーな手法を再構築する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2023-10-09T16:17:42Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。