論文の概要: From Consistency to Complementarity: Aligned and Disentangled Multi-modal Learning for Time Series Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2601.21436v2
- Date: Wed, 04 Feb 2026 05:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.533008
- Title: From Consistency to Complementarity: Aligned and Disentangled Multi-modal Learning for Time Series Understanding and Reasoning
- Title(参考訳): 一貫性から相補性へ:時系列理解と推論のためのアライメントとアンタングル型マルチモーダル学習
- Authors: Hang Ni, Weijia Zhang, Fei Wang, Zezhi Shao, Hao Liu,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)であるMADIを提案する。
合成および実世界のベンチマーク実験により、MADIは汎用LLMと時系列特化MLLMを一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 12.903267405917388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in multi-modal large language models (MLLMs) have inspired time series understanding and reasoning tasks, that enable natural language querying over time series, producing textual analyses of complex temporal dynamics. Recent attempts hybridize numerical time series with their visualized plots, facilitating precise value reasoning and visual structure comprehension for comprehensive time series understanding of MLLMs. However, effective numerical-visual modality integration remains challenging due to fine-grained temporal misalignment across modalities and severe entanglement between shared and modality-specific semantics, which hinder localized interpretation and complementary reasoning. To address these issues, we propose MADI, a multi-modal LLM enhanced with fine-grained alignment and disentangled interaction, featuring (1) Patch-level Alignment, which enforces physically grounded fine-grained correspondence across heterogeneous modalities, (2) Discrete Disentangled Interaction, which separates modality-common semantics into compact discrete latents and adaptively synergizes the purified modality-unique information, and (3) Critical-token Highlighting, which emphasizes informative, query-relevant signals for robust reasoning. Experiments on synthetic and real-world benchmarks show that MADI consistently outperforms general-purpose LLMs and time-series-specialized MLLMs.
- Abstract(参考訳): MLLM(Multi-modal large language model)の進歩は、時系列理解と推論タスクにインスピレーションを与え、時系列の自然言語クエリを可能にし、複雑な時間的ダイナミクスのテキスト解析を生成する。
最近の試みでは,数値時系列とプロットの視覚化を併用し,正確な値推論と,MLLMの包括的時系列理解のための視覚構造理解を容易にする。
しかし, 局所的解釈や相補的推論の妨げとなる, モダリティ間の微粒な時間的ミスアライメントや, 共有意味論とモダリティ固有の意味論の厳密な絡み合いにより, 効果的な数値・視覚的モダリティ統合は依然として困難である。
これらの問題に対処するため,(1)不均一なモダリティにまたがる物理的に接地された細粒度対応を強制するパッチレベルのアライメント,(2)コンパクトな離散的潜伏語にモダリティ共通意味論を分離し,適応的に修飾されたモダリティ共通情報に相乗化する離散不整合相互作用,(3)堅牢な推論のための情報的・クエリ関連信号を強調するクリティカル・トケン・ハイライニングを特徴とする,細粒度アライメントと不整合相互作用で強化されたマルチモーダルLLMを提案する。
合成および実世界のベンチマーク実験により、MADIは汎用LLMと時系列特化MLLMを一貫して上回っていることが示された。
関連論文リスト
- TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task Reinforcement Learning [25.848638804759872]
MLLM(Multimodal Large Language Models)の時間的理解の促進は,映像解析の進歩に不可欠である。
本研究では,MLLMの時間的理解を体系的に強化する時間的マルチタスク強化学習フレームワークであるTempR1を提案する。
論文 参考訳(メタデータ) (2025-12-03T16:57:00Z) - FiCoTS: Fine-to-Coarse LLM-Enhanced Hierarchical Cross-Modality Interaction for Time Series Forecasting [13.70466880923202]
時系列予測は、データ分析とWeb技術の中心である。
LLM(Large Language Models)はこの分野で大きな可能性を秘めている。
マルチモーダル時系列予測のためのLLM強化ファイン・ツー・コア・フレームワークであるFiCoTSを提案する。
論文 参考訳(メタデータ) (2025-11-29T03:17:26Z) - AXIS: Explainable Time Series Anomaly Detection with Large Language Models [33.68487894996624]
AXISは、時系列理解のための凍結したLarge Language Models (LLM) を規定するフレームワークである。
LLMは離散トークンで動作し、長い連続的な信号を直接処理するのに苦労する。
文脈的接地とパターンレベルのセマンティクスを監督するマルチフォーマットの質問と合理性を特徴とする新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-09-29T07:24:22Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。
MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。
本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文 参考訳(メタデータ) (2025-05-24T11:49:31Z) - Position: Empowering Time Series Reasoning with Multimodal LLMs [49.73647759532127]
マルチモーダル言語モデル (MLLM) は時系列解析においてより強力で柔軟な推論を可能にすると論じる。
我々は、MLLMにおける信頼、解釈可能性、堅牢な推論を優先する戦略を開発することで、この可能性を活用するよう研究者や実践者に呼びかける。
論文 参考訳(メタデータ) (2025-02-03T16:10:48Z) - TempoGPT: Enhancing Time Series Reasoning via Quantizing Embedding [13.996105878417204]
本稿では,マルチモーダル時系列データ構築手法とマルチモーダル時系列言語モデル(TLM, TempoGPT)を提案する。
ホワイトボックスシステム内の変数-システム関係を解析することにより,複雑な推論タスクのためのマルチモーダルデータを構築する。
広範な実験により、TempoGPTは時間的情報を正確に知覚し、結論を論理的に推論し、構築された複雑な時系列推論タスクにおける最先端の処理を達成することが示されている。
論文 参考訳(メタデータ) (2025-01-13T13:47:05Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。