論文の概要: TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.03963v2
- Date: Thu, 04 Dec 2025 02:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 14:54:32.883041
- Title: TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task Reinforcement Learning
- Title(参考訳): TempR1:Temporal-Aware Multi-Task Reinforcement LearningによるMLLMの時間的理解の改善
- Authors: Tao Wu, Li Yang, Gen Zhan, Yabin Zhang, Yiting Liao, Junlin Li, Deliang Fu, Li Zhang, Limin Wang,
- Abstract要約: MLLM(Multimodal Large Language Models)の時間的理解の促進は,映像解析の進歩に不可欠である。
本研究では,MLLMの時間的理解を体系的に強化する時間的マルチタスク強化学習フレームワークであるTempR1を提案する。
- 参考スコア(独自算出の注目度): 25.848638804759872
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Enhancing the temporal understanding of Multimodal Large Language Models (MLLMs) is essential for advancing long-form video analysis, enabling tasks such as temporal localization, action detection, and time-sensitive question answering. While reinforcement learning (RL) has recently been explored for improving temporal reasoning, existing approaches are often confined to limited task types and data, restricting their generalization across diverse temporal understanding scenarios. To address this challenge, we present TempR1, a temporal-aware multi-task reinforcement learning framework that systematically strengthens MLLMs' temporal comprehension. We curate a multi-task corpus that exposes the model to diverse temporal structures and semantics, and build upon the Group Relative Policy Optimization (GRPO) algorithm to achieve stable and effective cross-task optimization. Specifically, we categorize temporal tasks into three correspondence types between predicted intervals and ground-truth instances, and design tailored localization rewards for each, enabling TempR1 to capture fine-grained temporal dependencies and adapt to different temporal patterns. Extensive experiments demonstrate that TempR1 attains state-of-the-art performance across multiple benchmarks. Moreover, its joint optimization over complementary tasks yields a strong synergistic effect, enhancing both generalization and single-task performance, establishing a scalable and principled paradigm for temporal reasoning in MLLMs.
- Abstract(参考訳): 多モーダル大規模言語モデル(MLLM)の時間的理解の促進は、時間的局所化、行動検出、時間感応的な質問応答などのタスクを可能にする、長期ビデオ解析の進歩に不可欠である。
強化学習(RL)は最近、時間的推論を改善するために研究されているが、既存のアプローチはタスクタイプやデータに限られており、様々な時間的理解シナリオにまたがる一般化が制限されている。
本研究では,MLLMの時間的理解を体系的に強化する時間的マルチタスク強化学習フレームワークであるTempR1を提案する。
多様な時間構造やセマンティクスにモデルを公開するマルチタスクコーパスをキュレートし、グループ相対ポリシー最適化(GRPO)アルゴリズムに基づいて、安定的で効果的なクロスタスク最適化を実現する。
具体的には,時間的タスクを予測間隔と地中実例の3つの対応タイプに分類し,それぞれの局所化報酬を調整し,TempR1が微粒な時間的依存を捕捉し,異なる時間的パターンに適応できるようにする。
大規模な実験により、TempR1は複数のベンチマークで最先端のパフォーマンスを実現している。
さらに、相補的タスクに対する共同最適化は、強力な相乗効果をもたらし、一般化と単一タスクのパフォーマンスを向上し、MLLMにおける時間的推論のためのスケーラブルで原則化されたパラダイムを確立する。
関連論文リスト
- Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline [58.585692088008905]
MM-Lifelongはマルチモーダルライフロング理解のために設計されたデータセットである。
撮影時間は181.1時間で、日、週、月の各スケールにまたがって構成され、様々な時間密度を捉えている。
論文 参考訳(メタデータ) (2026-03-05T18:52:12Z) - UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - From Consistency to Complementarity: Aligned and Disentangled Multi-modal Learning for Time Series Understanding and Reasoning [12.903267405917388]
マルチモーダル大規模言語モデル(MLLM)であるMADIを提案する。
合成および実世界のベンチマーク実験により、MADIは汎用LLMと時系列特化MLLMを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-29T09:13:46Z) - Enhancing Temporal Awareness in LLMs for Temporal Point Processes [53.596733432865626]
時間的ポイントプロセス(TPP)は、時間とともにイベントを分析するのに不可欠である。
TPP-TALは、大規模な言語モデルにおける時間的推論を強化するために設計された新しいプラグイン・アンド・プレイフレームワークである。
TPP-TALは時間的確率推定と事象予測精度を大幅に改善した。
論文 参考訳(メタデータ) (2025-12-29T03:01:24Z) - Eliciting Chain-of-Thought Reasoning for Time Series Analysis using Reinforcement Learning [2.426309874608745]
複雑な数値時系列解析は、しばしば現在のモデルの範囲を超えて多段階の推論能力を必要とする。
我々は,大規模言語モデルを訓練して,多種多様な時系列タスクに対して,検証可能な報酬付き強化学習(RL)を用いた推論を行うための,最初のフレームワークであるCOUNTS(Chain Of thought for Understanding Numerical Time Series)を紹介した。
実験により、中間CoT推論を用いたこのRL駆動方式は、様々な時系列解析タスクにおけるLLM性能を大幅に向上させ、複雑な時間的データ推論の新たな可能性を開くことを実証した。
論文 参考訳(メタデータ) (2025-10-01T17:02:28Z) - DaMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMs [5.074812070492738]
本稿では,正確な時間的推論とマルチモーダル理解を目的とした,データ効率のよいビデオLLMであるDaMOを紹介する。
構造化された4段階のプログレッシブトレーニングパラダイムを通じてDaMOをトレーニングし、マルチモーダルアライメント、セマンティックグラウンド、時間的推論機能を備えたモデルを段階的に装備する。
我々の研究は、データ効率の良いビデオ言語モデリングのための有望な方向性を確立する。
論文 参考訳(メタデータ) (2025-06-13T08:13:05Z) - Hierarchical Relation-augmented Representation Generalization for Few-shot Action Recognition [43.84348967231349]
アクション認識は、新しいアクションカテゴリーをほとんど見ない形で認識することを目的としている。
既存の手法は通常、フレーム間の時間的モデリング戦略を設計することで、各ビデオのフレームレベル表現を学習する。
FSARのための階層的関係強化表現一般化フレームワークHR2G-shotを提案する。
論文 参考訳(メタデータ) (2025-04-14T10:23:22Z) - UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。
既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。
時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文 参考訳(メタデータ) (2025-03-12T11:45:11Z) - TempoGPT: Enhancing Time Series Reasoning via Quantizing Embedding [13.996105878417204]
本稿では,マルチモーダル時系列データ構築手法とマルチモーダル時系列言語モデル(TLM, TempoGPT)を提案する。
ホワイトボックスシステム内の変数-システム関係を解析することにより,複雑な推論タスクのためのマルチモーダルデータを構築する。
広範な実験により、TempoGPTは時間的情報を正確に知覚し、結論を論理的に推論し、構築された複雑な時系列推論タスクにおける最先端の処理を達成することが示されている。
論文 参考訳(メタデータ) (2025-01-13T13:47:05Z) - Multi-Patch Prediction: Adapting LLMs for Time Series Representation
Learning [22.28251586213348]
aLLM4TSは、時系列表現学習にLarge Language Models(LLM)を適用する革新的なフレームワークである。
われわれのフレームワークの特筆すべき要素はパッチワイドデコーディング層である。
論文 参考訳(メタデータ) (2024-02-07T13:51:26Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - USTEP: Spatio-Temporal Predictive Learning under A Unified View [62.58464029270846]
UTEP(Unified S-Temporal Predictive Learning)は,マイクロテンポラリスケールとマクロテンポラリスケールを統合した再帰的および再帰的フリーな手法を再構築する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2023-10-09T16:17:42Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。