Fugu-MT 論文翻訳(概要): DualTime: A Dual-Adapter Multimodal Language Model for Time Series Representation

論文の概要: DualTime: A Dual-Adapter Multimodal Language Model for Time Series Representation

arxiv url: http://arxiv.org/abs/2406.06620v2
Date: Tue, 30 Jul 2024 12:03:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 21:43:34.810022
Title: DualTime: A Dual-Adapter Multimodal Language Model for Time Series Representation
Title（参考訳）: DualTime: 時系列表現のためのデュアル適応型マルチモーダル言語モデル
Authors: Weiqi Zhang, Jiexia Ye, Ziyue Li, Jia Li, Fugee Tsung,
Abstract要約: 時系列表現のためのデュアル適応型マルチモーダル言語モデルであるDualTimeを提案する。本手法は,教師なし設定と教師なし設定の両方において,最先端モデルよりも優れる。
参考スコア（独自算出の注目度）: 25.47662257105448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent rapid development of language models (LMs) has attracted attention in the field of time series, including multimodal time series modeling. However, we note that current time series multimodal methods are biased, often assigning a primary role to one modality while the other assumes a secondary role. They overlook the mutual benefits and complementary of different modalities. For example, in seizure diagnosis, relying solely on textual clinical reports makes it difficult to pinpoint the area and type of the disease, while electroencephalograms (EEGs) alone cannot provide an accurate diagnosis without considering the symptoms. In this study, based on the complementary information mining of time series multimodal data, we propose DualTime, a Dual-adapter multimodal language model for Time series representation implementing temporal-primary and textual-primary modeling simultaneously. By injecting lightweight adaption tokens, the LM pipeline shared by dual adapters encourages embedding alignment and achieves efficient fine-tuning. Empirically, our method outperforms state-of-the-art models in both supervised and unsupervised settings, highlighting the complementary benefits of different modalities. In addition, we conduct few-shot label transfer experiments, which further verifies the transferability and expressiveness of our proposed DualTime.
Abstract（参考訳）: 近年の言語モデル(LM)の急速な発展は、マルチモーダル時系列モデリングを含む時系列の分野において注目を集めている。しかし、現在の時系列マルチモーダル法は偏りがあり、しばしば1つのモダリティに主役を割り当て、他方が二次役を仮定する。彼らは異なるモダリティの相互利益と相補性を見落としている。例えば、発作診断においては、テキストの臨床報告のみに頼って疾患の部位やタイプを特定することは困難であるが、脳電図(EEG)だけでは症状を考慮せずに正確な診断を行うことはできない。本研究では,時系列マルチモーダルデータの補完的情報マイニングに基づく時系列表現のためのデュアル適応型マルチモーダル言語モデルであるDualTimeを提案する。軽量適応トークンを注入することにより、デュアルアダプタで共有されるLMパイプラインは、埋め込みアライメントを促進し、効率的な微調整を実現する。提案手法は,教師付き設定と教師なし設定の両方において最先端モデルよりも優れており,異なるモダリティの相補的利点が顕著である。さらに,提案したDualTimeの転送性や表現性を検証した,数発のラベル転送実験を行った。

関連論文リスト

Multi-Aspect Knowledge-Enhanced Medical Vision-Language Pretraining with Multi-Agent Data Generation [13.362188283113788]
医用画像分析の強力なパラダイムとして、視覚言語による事前訓練が登場している。マルチエージェントデータジェネレーション(MAGEN)システムとオントロジーに基づくマルチアスペクト知識強化(O-MAKE)プリトレーニングを統合する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-03T04:55:54Z)
VELVET-Med: Vision and Efficient Language Pre-training for Volumetric Imaging Tasks in Medicine [11.993301266706139]
我々は,3次元CTや関連する放射線学報告など,限られたボリュームデータを対象とした視覚言語事前学習フレームワーク「textbfVELVET-Med」を提案する。本研究は,ボリューム医療画像とそれに対応する臨床物語に埋め込まれた,豊かな空間的・意味的関係を明らかにすることを目的としている。結果として得られるエンコーダは強い転送可能性を示し、幅広い下流タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-08-16T17:08:43Z)
NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding [51.63264715941068]
textbfNEARL-CLIP (iunderlineNteracted quunderlineEry underlineAdaptation with ounderlineRthogonaunderlineL regularization)は、VLMベースの新しい相互モダリティ相互作用フレームワークである。
論文参考訳（メタデータ） (2025-08-06T05:44:01Z)
Adapting Large Language Models for Time Series Modeling via a Novel Parameter-efficient Adaptation Method [9.412920379798928]
時系列モデリングは多くの実世界のアプリケーションにおいて重要な意味を持つ。我々は時系列と自然言語のモダリティを調整するためのTime-LlaMAフレームワークを提案する。本稿では,提案手法がSOTA(State-of-the-art)性能を実現することを示す。
論文参考訳（メタデータ） (2025-02-19T13:52:26Z)
ProMedTS: A Self-Supervised, Prompt-Guided Multimodal Approach for Integrating Medical Text and Time Series [27.70300880284899]
大規模言語モデル (LLM) は、視覚の細かいタスクにおいて顕著な性能を示してきたが、医療分野におけるそれらの応用はいまだに探索されていない。 ProMedTSは、データ型を統一するために、プロンプト誘導学習を利用する、新しい自己教師型マルチモーダルフレームワークである。実世界のデータセットを用いた診断タスクにおけるProMedTSの評価を行い,本手法が常に最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2025-02-19T07:56:48Z)
MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
TempoGPT: Enhancing Time Series Reasoning via Quantizing Embedding [13.996105878417204]
本稿では,マルチモーダル時系列データ構築手法とマルチモーダル時系列言語モデル(TLM, TempoGPT)を提案する。ホワイトボックスシステム内の変数-システム関係を解析することにより,複雑な推論タスクのためのマルチモーダルデータを構築する。広範な実験により、TempoGPTは時間的情報を正確に知覚し、結論を論理的に推論し、構築された複雑な時系列推論タスクにおける最先端の処理を達成することが示されている。
論文参考訳（メタデータ） (2025-01-13T13:47:05Z)
Multi-Modal One-Shot Federated Ensemble Learning for Medical Data with Vision Large Language Model [27.299068494473016]
我々は、革新的なワンショットマルチモーダル・フェデレート・アンサンブル学習フレームワークであるFedMMEを紹介する。 FedMMEは、医用画像からテキストレポートを作成するために、視覚的大言語モデルを活用している。 RSNAデータセットでは、既存のワンショットのフェデレーション学習アプローチを17.5%以上上回っている。
論文参考訳（メタデータ） (2025-01-06T08:36:28Z)
Generalized Prompt Tuning: Adapting Frozen Univariate Time Series Foundation Models for Multivariate Healthcare Time Series [3.9599054392856483]
時系列基礎モデルは、大規模なデータセットで事前訓練され、様々なタスクで最先端のパフォーマンスを達成することができる。我々は、既存の単変量時系列基礎モデルに適応できる、素早いチューニングインスパイアされた微調整技術Gen-P-Tuningを提案する。 2つのMIMIC分類課題とインフルエンザ様疾患予測における各種ベースラインに対する微調整アプローチの有効性を実証した。
論文参考訳（メタデータ） (2024-11-19T19:20:58Z)
PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。 CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文参考訳（メタデータ） (2024-09-08T15:02:25Z)
Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文参考訳（メタデータ） (2024-08-30T03:28:40Z)
Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文参考訳（メタデータ） (2024-05-30T03:15:09Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Temporal Cross-Attention for Dynamic Embedding and Tokenization of Multimodal Electronic Health Records [1.6609516435725236]
マルチモーダルな臨床時系列を正確に表現するための動的埋め込み・トークン化フレームワークを提案する。術後合併症9例の発症予測に基礎的アプローチを応用した。
論文参考訳（メタデータ） (2024-03-06T19:46:44Z)
C^2M-DoT: Cross-modal consistent multi-view medical report generation with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。 C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2023-10-09T02:31:36Z)
Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。 PTUnifier という2つのタイプを統一する手法を提案する。まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文参考訳（メタデータ） (2023-02-17T15:43:42Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文参考訳（メタデータ） (2022-11-27T14:46:01Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-05-16T07:53:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。