論文の概要: DualTime: A Dual-Adapter Multimodal Language Model for Time Series Representation
- arxiv url: http://arxiv.org/abs/2406.06620v1
- Date: Fri, 7 Jun 2024 14:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 20:54:41.280600
- Title: DualTime: A Dual-Adapter Multimodal Language Model for Time Series Representation
- Title(参考訳): DualTime: 時系列表現のためのデュアル適応型マルチモーダル言語モデル
- Authors: Weiqi Zhang, Jiexia Ye, Ziyue Li, Jia Li, Fugee Tsung,
- Abstract要約: 時系列表現のためのデュアル適応型マルチモーダル言語モデルであるDualTimeを提案する。
本手法は,教師なし設定と教師なし設定の両方において,最先端モデルよりも優れる。
- 参考スコア(独自算出の注目度): 25.47662257105448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent rapid development of language models (LMs) has attracted attention in the field of time series, including multimodal time series modeling. However, we note that current time series multimodal methods are biased, often assigning a primary role to one modality while the other assumes a secondary role. They overlook the mutual benefits and complementary of different modalities. For example, in seizure diagnosis, relying solely on textual clinical reports makes it difficult to pinpoint the area and type of the disease, while electroencephalograms (EEGs) alone cannot provide an accurate diagnosis without considering the symptoms. In this study, based on the complementary information mining of time series multimodal data, we propose DualTime, a Dual-adapter multimodal language model for Time series representation implementing temporal-primary and textual-primary modeling simultaneously. By injecting lightweight adaption tokens, the LM pipeline shared by dual adapters encourages embedding alignment and achieves efficient fine-tuning. Empirically, our method outperforms state-of-the-art models in both supervised and unsupervised settings, highlighting the complementary benefits of different modalities. In addition, we conduct few-shot label transfer experiments, which further verifies the transferability and expressiveness of our proposed DualTime.
- Abstract(参考訳): 近年の言語モデル(LM)の急速な発展は、マルチモーダル時系列モデリングを含む時系列の分野において注目を集めている。
しかし、現在の時系列マルチモーダル法は偏りがあり、しばしば1つのモダリティに主役を割り当て、他方が二次役を仮定する。
彼らは異なるモダリティの相互利益と相補性を見落としている。
例えば、発作診断においては、テキストの臨床報告のみに頼って疾患の部位やタイプを特定することは困難であるが、脳電図(EEG)だけでは症状を考慮せずに正確な診断を行うことはできない。
本研究では,時系列マルチモーダルデータの補完的情報マイニングに基づく時系列表現のためのデュアル適応型マルチモーダル言語モデルであるDualTimeを提案する。
軽量適応トークンを注入することにより、デュアルアダプタで共有されるLMパイプラインは、埋め込みアライメントを促進し、効率的な微調整を実現する。
提案手法は,教師付き設定と教師なし設定の両方において最先端モデルよりも優れており,異なるモダリティの相補的利点が顕著である。
さらに,提案したDualTimeの転送性や表現性を検証した,数発のラベル転送実験を行った。
関連論文リスト
- Generalized Prompt Tuning: Adapting Frozen Univariate Time Series Foundation Models for Multivariate Healthcare Time Series [3.9599054392856483]
時系列基礎モデルは、大規模なデータセットで事前訓練され、様々なタスクで最先端のパフォーマンスを達成することができる。
我々は、既存の単変量時系列基礎モデルに適応できる、素早いチューニングインスパイアされた微調整技術Gen-P-Tuningを提案する。
2つのMIMIC分類課題とインフルエンザ様疾患予測における各種ベースラインに対する微調整アプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-11-19T19:20:58Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Temporal Cross-Attention for Dynamic Embedding and Tokenization of Multimodal Electronic Health Records [1.6609516435725236]
マルチモーダルな臨床時系列を正確に表現するための動的埋め込み・トークン化フレームワークを提案する。
術後合併症9例の発症予測に基礎的アプローチを応用した。
論文 参考訳(メタデータ) (2024-03-06T19:46:44Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。