論文の概要: TPRU: Advancing Temporal and Procedural Understanding in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2602.18884v1
- Date: Sat, 21 Feb 2026 16:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.375223
- Title: TPRU: Advancing Temporal and Procedural Understanding in Large Multimodal Models
- Title(参考訳): TPRU:大規模マルチモーダルモデルにおける時間的・手続き的理解の促進
- Authors: Zhenkun Gao, Xuhong Wang, Xin Tan, Yuan Xie,
- Abstract要約: 本稿では,多様な実施シナリオをベースとした大規模データセットTPRUを紹介する。
TPRUは3つの相補的なタスクを通じて時間的推論を育むために体系的に設計されている。
我々は,資源効率の向上を目的とした強化学習(RL)ファインチューニング手法を用いてTPRUを利用する。
- 参考スコア(独自算出の注目度): 16.203071396170284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs), particularly smaller, deployable variants, exhibit a critical deficiency in understanding temporal and procedural visual data, a bottleneck hindering their application in real-world embodied AI. This gap is largely caused by a systemic failure in training paradigms, which lack large-scale, procedurally coherent data. To address this problem, we introduce TPRU, a large-scale dataset sourced from diverse embodied scenarios such as robotic manipulation and GUI navigation. TPRU is systematically designed to cultivate temporal reasoning through three complementary tasks: Temporal Reordering, Next-Frame Prediction, and Previous-Frame Review. A key feature is the inclusion of challenging negative samples, compelling models to transition from passive observation to active, cross-modal validation. We leverage TPRU with a reinforcement learning (RL) fine-tuning methodology, specifically targeting the enhancement of resource-efficient models. Experiments show our approach yields dramatic gains: on our manually curated TPRU-Test, the accuracy of TPRU-7B soars from 50.33\% to 75.70\%, a state-of-the-art result that significantly outperforms vastly larger baselines, including GPT-4o. Crucially, these capabilities generalize effectively, demonstrating substantial improvements on established benchmarks. The codebase is available at https://github.com/Stephen-gzk/TPRU/ .
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、特に小型でデプロイ可能な変種であり、時間的および手続き的視覚データを理解する上で重要な欠陥を示しており、現実のAIにおける彼らの応用を妨げるボトルネックとなっている。
このギャップは、大規模で手続き的に一貫性のあるデータが欠如している訓練パラダイムの体系的な失敗によって主に引き起こされる。
この問題に対処するために,ロボット操作やGUIナビゲーションといった多様な実施シナリオをベースとした大規模データセットTPRUを導入する。
TPRUは、時間的並べ替え、Next-Frame Prediction、Previous-Frame Reviewという3つの補完的なタスクを通じて時間的推論を育むために体系的に設計されている。
重要な特徴は、受動的観察からアクティブなクロスモーダルバリデーションに移行するための、挑戦的な負のサンプルの導入である。
我々は,資源効率の向上を目的とした強化学習(RL)ファインチューニング手法を用いてTPRUを利用する。
我々の手作業によるTPRU-Testでは、TPRU-7Bの精度が50.33\%から75.70\%に上昇し、GPT-4oを含む非常に大きなベースラインを著しく上回りました。
重要な点として、これらの機能は効果的に一般化され、確立されたベンチマークを大幅に改善した。
コードベースはhttps://github.com/Stephen-gzk/TPRU/で公開されている。
関連論文リスト
- Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - TimeSieve: Extracting Temporal Dynamics through Information Bottlenecks [31.10683149519954]
本稿では,時系列予測モデルTimeSieveを提案する。
提案手法では、ウェーブレット変換を用いて時系列データを前処理し、マルチスケールの特徴を効果的にキャプチャする。
本研究は,時系列予測における課題に対処するためのアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2024-06-07T15:58:12Z) - Less Is More: Fast Multivariate Time Series Forecasting with Light
Sampling-oriented MLP Structures [18.592350352298553]
単純な構造をベースとした軽量ディープラーニングアーキテクチャであるLightTSを紹介した。
既存の最先端のメソッドと比較すると、LightTSは5つのメソッドでより良いパフォーマンスを示し、残りの5つで同等のパフォーマンスを示している。
LightTSは堅牢であり、長いシーケンス予測タスクにおける従来のSOTA法よりも精度のばらつきがはるかに小さい。
論文 参考訳(メタデータ) (2022-07-04T04:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。