論文の概要: DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding
- arxiv url: http://arxiv.org/abs/2505.18411v1
- Date: Fri, 23 May 2025 22:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.401567
- Title: DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding
- Title(参考訳): DanmakuTPPBench: 時間的ポイントプロセスモデリングと理解のためのマルチモーダルベンチマーク
- Authors: Yue Jiang, Jichu Li, Yang Liu, Dingkang Yang, Feng Zhou, Quyu Kong,
- Abstract要約: 本稿では,マルチモーダル・テンポラル・ポイント・プロセス(TPP)モデリングの進歩を目的としたベンチマークであるDanmakuTPPBenchを紹介する。
TPPは時間的事象系列をモデル化するために広く研究されてきたが、既存のデータセットは概ね非モーダルである。
我々のベンチマークは、強力なベースラインを確立し、マルチモーダル言語モデリングランドスケープへのTPPモデリングのさらなる統合を要求する。
- 参考スコア(独自算出の注目度): 17.450031813318965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DanmakuTPPBench, a comprehensive benchmark designed to advance multi-modal Temporal Point Process (TPP) modeling in the era of Large Language Models (LLMs). While TPPs have been widely studied for modeling temporal event sequences, existing datasets are predominantly unimodal, hindering progress in models that require joint reasoning over temporal, textual, and visual information. To address this gap, DanmakuTPPBench comprises two complementary components: (1) DanmakuTPP-Events, a novel dataset derived from the Bilibili video platform, where user-generated bullet comments (Danmaku) naturally form multi-modal events annotated with precise timestamps, rich textual content, and corresponding video frames; (2) DanmakuTPP-QA, a challenging question-answering dataset constructed via a novel multi-agent pipeline powered by state-of-the-art LLMs and multi-modal LLMs (MLLMs), targeting complex temporal-textual-visual reasoning. We conduct extensive evaluations using both classical TPP models and recent MLLMs, revealing significant performance gaps and limitations in current methods' ability to model multi-modal event dynamics. Our benchmark establishes strong baselines and calls for further integration of TPP modeling into the multi-modal language modeling landscape. The code and dataset have been released at https://github.com/FRENKIE-CHIANG/DanmakuTPPBench
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) 時代におけるマルチモーダル時間点過程(TPP)モデリングの進歩を目的とした総合ベンチマークである DanmakuTPPBench を紹介する。
TPPは時間的イベントシーケンスをモデル化するために広く研究されているが、既存のデータセットは主として非定型的であり、時間的、テキスト的、視覚的な情報に対する共同推論を必要とするモデルの進行を妨げる。
このギャップに対処するために、DanmakuTPPBenchは、(1)ビリシリビデオプラットフォームから派生した新規データセットであるDanmakuTPP-Events(ダンマク)、(2)複雑な時間-テクスチャ-視覚的推論を対象とする、最先端のLLMとマルチモーダルLLM(MLLM)をベースとした新しいマルチエージェントパイプラインによって構築された挑戦的質問応答データセットであるDanmakuTPP-QA(ダンマクTPP-QA)の2つの補完的なコンポーネントから構成される。
我々は古典的TPPモデルと最近のMLLMの両方を用いて広範囲な評価を行い、マルチモーダルイベントダイナミクスをモデル化する現在の手法の能力において、重要なパフォーマンスギャップと限界を明らかにした。
我々のベンチマークは、強力なベースラインを確立し、マルチモーダル言語モデリングランドスケープへのTPPモデリングのさらなる統合を要求する。
コードとデータセットはhttps://github.com/FRENKIE-CHIANG/DanmakuTPPBenchでリリースされた。
関連論文リスト
- ChronoSteer: Bridging Large Language Model and Time Series Foundation Model via Synthetic Data [22.81326423408988]
我々はChronoSteerを紹介した。ChronoSteerはマルチモーダルTSFMであり、テキストのリビジョン命令で操作できる。
クロスモーダルな命令系列ペアデータ不足を軽減するため,合成データに基づく2段階のトレーニング戦略を考案した。
ChronoSteerは、前回の最先端マルチモーダル法よりも25.7%の精度で予測精度が向上し、22.5%も向上した。
論文 参考訳(メタデータ) (2025-05-15T08:37:23Z) - Language-TPP: Integrating Temporal Point Processes with Language Models for Event Analysis [23.27520345839548]
テンポラルポイントプロセス(TPP)は、イベントシーケンスモデリングに広く用いられているが、リッチテキストのイベント記述を効果的に組み込むのに苦労することが多い。
本稿では,TPPをLLM(Large Language Models)と統合した統合フレームワークであるLanguage-TPPを紹介した。
論文 参考訳(メタデータ) (2025-02-11T00:09:45Z) - TempoGPT: Enhancing Time Series Reasoning via Quantizing Embedding [13.996105878417204]
本稿では,マルチモーダル時系列データ構築手法とマルチモーダル時系列言語モデル(TLM, TempoGPT)を提案する。
ホワイトボックスシステム内の変数-システム関係を解析することにより,複雑な推論タスクのためのマルチモーダルデータを構築する。
広範な実験により、TempoGPTは時間的情報を正確に知覚し、結論を論理的に推論し、構築された複雑な時系列推論タスクにおける最先端の処理を達成することが示されている。
論文 参考訳(メタデータ) (2025-01-13T13:47:05Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - TPP-LLM: Modeling Temporal Point Processes by Efficiently Fine-Tuning Large Language Models [0.0]
時間的ポイントプロセス(TPP)は、ソーシャルネットワーク、交通システム、eコマースなどのドメインにおけるイベントのタイミングと発生をモデル化するために広く用いられている。
イベントシーケンスのセマンティックな側面と時間的側面の両方をキャプチャするために,大規模言語モデル(LLM)とTPPを統合する新しいフレームワークであるTPP-LLMを紹介する。
論文 参考訳(メタデータ) (2024-10-02T22:17:24Z) - MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models [55.5765505287505]
大規模言語モデルを用いた多モーダル時間事象予測の新興かつ興味深い課題について検討する。
本稿では,画像が時間的事象予測のシナリオで果たす重要な2つの機能,すなわちハイライトと補完機能について述べる。
我々は,これらの関数記述を大規模言語モデルに組み込んだ,MM-Forecastという新しいフレームワークを開発した。
論文 参考訳(メタデータ) (2024-08-08T11:44:57Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。