論文の概要: Long-range Modeling and Processing of Multimodal Event Sequences
- arxiv url: http://arxiv.org/abs/2602.01125v1
- Date: Sun, 01 Feb 2026 09:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.608096
- Title: Long-range Modeling and Processing of Multimodal Event Sequences
- Title(参考訳): 多モードイベント系列の長距離モデリングと処理
- Authors: Jichu Li, Yilun Zhong, Zhiting Li, Feng Zhou, Quyu Kong,
- Abstract要約: 一時的ポイントプロセス(TPP)は、非同期イベントシーケンスをモデリングするための強力なツールとして登場した。
近年のTPPはテキスト情報を扱うために拡張されているが、既存のアプローチはリッチでマルチモーダルなコンテンツを生成する能力に限られている。
本稿では,TPPを視覚的モダリティに拡張し,テキスト生成を時間・型予測とともにコア機能として位置づける新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.289301948638413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal point processes (TPPs) have emerged as powerful tools for modeling asynchronous event sequences. While recent advances have extended TPPs to handle textual information, existing approaches are limited in their ability to generate rich, multimodal content and reason about event dynamics. A key challenge is that incorporating multimodal data dramatically increases sequence length, hindering the ability of attention-based models to generate coherent, long-form textual descriptions that require long-range understanding. In this paper, we propose a novel framework that extends LLM-based TPPs to the visual modality, positioning text generation as a core capability alongside time and type prediction. Our approach addresses the long-context problem through an adaptive sequence compression mechanism based on temporal similarity, which reduces sequence length while preserving essential patterns. We employ a two-stage paradigm of pre-training on compressed sequences followed by supervised fine-tuning for downstream tasks. Extensive experiments, including on the challenging DanmakuTPP-QA benchmark, demonstrate that our method outperforms state-of-the-art baselines in both predictive accuracy and the quality of its generated textual analyses.
- Abstract(参考訳): 一時的ポイントプロセス(TPP)は、非同期イベントシーケンスをモデリングするための強力なツールとして登場した。
最近の進歩は、テキスト情報を扱うためにTPPを拡張しているが、既存のアプローチはリッチでマルチモーダルなコンテンツを生成し、イベントダイナミクスを推論する能力に制限されている。
鍵となる課題は、マルチモーダルデータを組み込むことでシーケンス長が劇的に増加し、長い範囲の理解を必要とする一貫性のある長いテキスト記述を生成する注意ベースのモデルの能力を妨げることである。
本稿では,LLMベースのTPPを視覚的モダリティに拡張し,テキスト生成を時間・型予測とともにコア機能として位置づける新しいフレームワークを提案する。
提案手法は,時間的類似性に基づく適応的なシーケンス圧縮機構により,本態的なパターンを保ちながらシーケンス長を削減することで,長文問題に対処する。
圧縮シーケンスに対する事前学習の2段階パラダイムを用いて、下流タスクの教師付き微調整を行う。
ダンマクTPP-QAベンチマークを含む広範囲な実験により,本手法は予測精度と生成したテキスト解析の品質の両方において,最先端のベースラインよりも優れていることが示された。
関連論文リスト
- UniDiff: A Unified Diffusion Framework for Multimodal Time Series Forecasting [90.47915032778366]
マルチモーダル時系列予測のための統合拡散フレームワークUniDiffを提案する。
コアには統一的で並列な融合モジュールがあり、単一のクロスアテンション機構がタイムスタンプからの構造化情報とテキストからのセマンティックコンテキストを統合する。
8つの領域にわたる実世界のベンチマークデータセットの実験は、提案したUniDiffモデルが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-08T05:36:14Z) - BALM-TSF: Balanced Multimodal Alignment for LLM-Based Time Series Forecasting [5.360725360679271]
BALM-TSFは時系列予測のための軽量フレームワークである。
時系列とテキスト埋め込みのバランスを維持する。
長期および少数ショットの予測において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-30T22:31:55Z) - EventTSF: Event-Aware Non-Stationary Time Series Forecasting [73.54313384419792]
EventTSFは、過去の時系列とテキストイベントを統合し、その後の予測を行う自動回帰生成フレームワークである。
8つの合成および実世界のデータセットの実験によると、EventTSFは、さまざまなイベント対応の非定常時系列予測シナリオで12のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-08-19T01:28:47Z) - DP-GPT4MTS: Dual-Prompt Large Language Model for Textual-Numerical Time Series Forecasting [2.359557447960552]
本稿ではDP-GPT4MTS(Dual-Prompt GPT2-base for Multimodal Time Series)を紹介する。
明確なタスク命令の明示的なプロンプトと、タイムスタンプされたデータからのコンテキスト認識の埋め込みのテキストプロンプトの2つの補完的なプロンプトを組み合わせる。
多様なテクスチュラル・数値時系列データセットを用いて行った実験は、この手法が時系列予測において最先端のアルゴリズムより優れていることを示した。
論文 参考訳(メタデータ) (2025-08-06T09:25:05Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding [31.49530597399081]
本稿では,マルチモーダル・テンポラル・ポイント・プロセス(TPP)モデリングの進歩を目的としたベンチマークであるDanmakuTPPBenchを紹介する。
TPPは時間的事象系列をモデル化するために広く研究されてきたが、既存のデータセットは概ね非モーダルである。
我々のベンチマークは、強力なベースラインを確立し、マルチモーダル言語モデリングランドスケープへのTPPモデリングのさらなる統合を要求する。
論文 参考訳(メタデータ) (2025-05-23T22:38:28Z) - TempoGPT: Enhancing Time Series Reasoning via Quantizing Embedding [13.996105878417204]
本稿では,マルチモーダル時系列データ構築手法とマルチモーダル時系列言語モデル(TLM, TempoGPT)を提案する。
ホワイトボックスシステム内の変数-システム関係を解析することにより,複雑な推論タスクのためのマルチモーダルデータを構築する。
広範な実験により、TempoGPTは時間的情報を正確に知覚し、結論を論理的に推論し、構築された複雑な時系列推論タスクにおける最先端の処理を達成することが示されている。
論文 参考訳(メタデータ) (2025-01-13T13:47:05Z) - Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。
本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:42:17Z) - Parsimony or Capability? Decomposition Delivers Both in Long-term Time Series Forecasting [46.63798583414426]
時系列予測(LTSF)は時系列分析において重要なフロンティアである。
本研究は, 分析的および実証的な証拠から, 分解が過剰なモデルインフレーションを包含する鍵であることを実証する。
興味深いことに、時系列データの本質的なダイナミクスに分解を合わせることで、提案モデルは既存のベンチマークより優れている。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。