論文の概要: DualTime: A Dual-Adapter Multimodal Language Model for Time Series Representation
- arxiv url: http://arxiv.org/abs/2406.06620v2
- Date: Tue, 30 Jul 2024 12:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 21:43:34.810022
- Title: DualTime: A Dual-Adapter Multimodal Language Model for Time Series Representation
- Title(参考訳): DualTime: 時系列表現のためのデュアル適応型マルチモーダル言語モデル
- Authors: Weiqi Zhang, Jiexia Ye, Ziyue Li, Jia Li, Fugee Tsung,
- Abstract要約: 時系列表現のためのデュアル適応型マルチモーダル言語モデルであるDualTimeを提案する。
本手法は,教師なし設定と教師なし設定の両方において,最先端モデルよりも優れる。
- 参考スコア(独自算出の注目度): 25.47662257105448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent rapid development of language models (LMs) has attracted attention in the field of time series, including multimodal time series modeling. However, we note that current time series multimodal methods are biased, often assigning a primary role to one modality while the other assumes a secondary role. They overlook the mutual benefits and complementary of different modalities. For example, in seizure diagnosis, relying solely on textual clinical reports makes it difficult to pinpoint the area and type of the disease, while electroencephalograms (EEGs) alone cannot provide an accurate diagnosis without considering the symptoms. In this study, based on the complementary information mining of time series multimodal data, we propose DualTime, a Dual-adapter multimodal language model for Time series representation implementing temporal-primary and textual-primary modeling simultaneously. By injecting lightweight adaption tokens, the LM pipeline shared by dual adapters encourages embedding alignment and achieves efficient fine-tuning. Empirically, our method outperforms state-of-the-art models in both supervised and unsupervised settings, highlighting the complementary benefits of different modalities. In addition, we conduct few-shot label transfer experiments, which further verifies the transferability and expressiveness of our proposed DualTime.
- Abstract(参考訳): 近年の言語モデル(LM)の急速な発展は、マルチモーダル時系列モデリングを含む時系列の分野において注目を集めている。
しかし、現在の時系列マルチモーダル法は偏りがあり、しばしば1つのモダリティに主役を割り当て、他方が二次役を仮定する。
彼らは異なるモダリティの相互利益と相補性を見落としている。
例えば、発作診断においては、テキストの臨床報告のみに頼って疾患の部位やタイプを特定することは困難であるが、脳電図(EEG)だけでは症状を考慮せずに正確な診断を行うことはできない。
本研究では,時系列マルチモーダルデータの補完的情報マイニングに基づく時系列表現のためのデュアル適応型マルチモーダル言語モデルであるDualTimeを提案する。
軽量適応トークンを注入することにより、デュアルアダプタで共有されるLMパイプラインは、埋め込みアライメントを促進し、効率的な微調整を実現する。
提案手法は,教師付き設定と教師なし設定の両方において最先端モデルよりも優れており,異なるモダリティの相補的利点が顕著である。
さらに,提案したDualTimeの転送性や表現性を検証した,数発のラベル転送実験を行った。
関連論文リスト
- Chimera: Effectively Modeling Multivariate Time Series with 2-Dimensional State Space Models [5.37935922811333]
State Space Models (SSM) は、一変量時系列モデリングのための古典的なアプローチである。
本稿では、2つの入力依存型2次元SSMヘッドと異なる離散化プロセスを用いて長期進行と季節パターンを学習するチメラについて述べる。
実験により,広範囲で多様なベンチマークにおいて,Chimeraの優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:09Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Temporal Cross-Attention for Dynamic Embedding and Tokenization of Multimodal Electronic Health Records [1.6609516435725236]
マルチモーダルな臨床時系列を正確に表現するための動的埋め込み・トークン化フレームワークを提案する。
術後合併症9例の発症予測に基礎的アプローチを応用した。
論文 参考訳(メタデータ) (2024-03-06T19:46:44Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Improving Medical Predictions by Irregular Multimodal Electronic Health
Records Modeling [19.346610191591143]
集中治療室(ICU)患者の健康状態は電子健康記録(EHR)によって監視される
単一モードごとに不規則に対処し、医療予測を改善するためにマルチモーダル表現に統合することは難しい問題である。
本手法はまず,手作りのインプット埋め込みをゲーティング機構を用いて学習した埋め込みに動的に組み込むことにより,各モードの不規則性に対処する。
我々は, 時系列, 臨床ノート, マルチモーダル融合におけるF1の6.5%, 3.6%, 4.3%の相対的な改善を観察した。
論文 参考訳(メタデータ) (2022-10-18T20:29:26Z) - Group GAN [1.1786249372283564]
本稿では,時系列の共通点を考慮し,チャネル間関係の保存を優先する新しい枠組みを提案する。
提案手法はチャネル相関の保存に有効であり, 医用データや財務データを用いて, 下流のタスクを非常によく行うことを実証的に実証した。
論文 参考訳(メタデータ) (2022-05-27T03:09:55Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。