論文の概要: MAESTRO : Adaptive Sparse Attention and Robust Learning for Multimodal Dynamic Time Series
- arxiv url: http://arxiv.org/abs/2509.25278v1
- Date: Mon, 29 Sep 2025 03:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.22618
- Title: MAESTRO : Adaptive Sparse Attention and Robust Learning for Multimodal Dynamic Time Series
- Title(参考訳): MAESTRO : 多モード動的時系列における適応スパース注意とロバスト学習
- Authors: Payal Mohapatra, Yueyuan Sui, Akash Pandey, Stephen Xia, Qi Zhu,
- Abstract要約: 既存のマルチモーダル学習アプローチの重要な制約を克服する新しいフレームワークであるMAESTROを紹介する。
MAESTROのコアとなるのは、タスクの関連性に基づいた動的イントラモーダル相互作用とクロスモーダル相互作用である。
3つのアプリケーションにまたがる4つの多様なデータセットに基づいて,MAESTROを10のベースラインに対して評価した。
- 参考スコア(独自算出の注目度): 7.657107258507061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From clinical healthcare to daily living, continuous sensor monitoring across multiple modalities has shown great promise for real-world intelligent decision-making but also faces various challenges. In this work, we introduce MAESTRO, a novel framework that overcomes key limitations of existing multimodal learning approaches: (1) reliance on a single primary modality for alignment, (2) pairwise modeling of modalities, and (3) assumption of complete modality observations. These limitations hinder the applicability of these approaches in real-world multimodal time-series settings, where primary modality priors are often unclear, the number of modalities can be large (making pairwise modeling impractical), and sensor failures often result in arbitrary missing observations. At its core, MAESTRO facilitates dynamic intra- and cross-modal interactions based on task relevance, and leverages symbolic tokenization and adaptive attention budgeting to construct long multimodal sequences, which are processed via sparse cross-modal attention. The resulting cross-modal tokens are routed through a sparse Mixture-of-Experts (MoE) mechanism, enabling black-box specialization under varying modality combinations. We evaluate MAESTRO against 10 baselines on four diverse datasets spanning three applications, and observe average relative improvements of 4% and 8% over the best existing multimodal and multivariate approaches, respectively, under complete observations. Under partial observations -- with up to 40% of missing modalities -- MAESTRO achieves an average 9% improvement. Further analysis also demonstrates the robustness and efficiency of MAESTRO's sparse, modality-aware design for learning from dynamic time series.
- Abstract(参考訳): 臨床医療から日常生活まで、複数のモードにわたる連続的なセンサーモニタリングは、現実世界のインテリジェントな意思決定に大きな可能性を秘めていますが、さまざまな課題に直面しています。
本研究では,既存のマルチモーダル学習アプローチの重要な制約を克服する新しいフレームワークであるMAESTROを紹介し,(1)アライメントのための単一一次モダリティへの依存,(2)モダリティのペアワイズモデリング,(3)完全モダリティ観測の仮定について述べる。
これらの制限は、実世界のマルチモーダル時系列設定におけるこれらのアプローチの適用性を妨げ、主要なモダリティの先行性はしばしば不明確であり、モダリティの数は大きい(ペアワイズ・モデリングは非現実的)。
MAESTROはタスク関連性に基づく動的内部および相互モーダル相互作用を促進し、シンボルトークン化と適応型アダプティブアテンション予算を利用して、スパースなクロスモーダルアテンションによって処理される長いマルチモーダルシーケンスを構築する。
得られたクロスモーダルトークンはスパースミクチャー・オブ・エクササイズ(MoE)機構を介してルーティングされ、様々なモダリティの組み合わせでブラックボックスの特殊化を可能にする。
我々は,3つのアプリケーションにまたがる4つの多様なデータセットに基づいて,MAESTROを10のベースラインに対して評価し,既存のマルチモーダルおよび多変量アプローチに対して,それぞれ4%と8%の平均相対的な改善を観察した。
部分的な観測では、最大40%のモダリティが欠落しており、MAESTROは平均9%の改善を実現している。
さらに解析は、動的時系列から学習するための、MAESTROのスパースでモダリティを意識した設計の堅牢性と効率性も示す。
関連論文リスト
- Attention-Driven Multimodal Alignment for Long-term Action Quality Assessment [5.262258418692889]
長時間の行動品質評価(AQA)は、最大数分間の動画における人間の活動の質を評価することに焦点を当てている。
LMAC-Net(Long-term Multimodal Attention Consistency Network)では,マルチモーダル特徴を明示的に整列する多モーダルアテンション一貫性機構を導入している。
RGデータセットとFis-Vデータセットで実施された実験は、LMAC-Netが既存の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-07-29T15:58:39Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - RingMoE: Mixture-of-Modality-Experts Multi-Modal Foundation Models for Universal Remote Sensing Image Interpretation [24.48561340129571]
RingMoEは147億のパラメータを持つ統一RS基盤モデルであり、9つの衛星から4億個のマルチモーダルRS画像に事前訓練されている。
緊急対応、土地管理、海洋科学、都市計画など、様々な分野に展開および試行されている。
論文 参考訳(メタデータ) (2025-04-04T04:47:54Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。