論文の概要: StreaMulT: Streaming Multimodal Transformer for Heterogeneous and
Arbitrary Long Sequential Data
- arxiv url: http://arxiv.org/abs/2110.08021v2
- Date: Wed, 21 Feb 2024 21:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 19:28:18.287784
- Title: StreaMulT: Streaming Multimodal Transformer for Heterogeneous and
Arbitrary Long Sequential Data
- Title(参考訳): StreaMulT:不均一および任意列データのためのマルチモーダル変換器
- Authors: Victor Pellegrain (1 and 2), Myriam Tami (2), Michel Batteux (1),
C\'eline Hudelot (2) ((1) Institut de Recherche Technologique SystemX, (2)
Universit\'e Paris-Saclay, CentraleSup\'elec, MICS)
- Abstract要約: StreaMulTは、クロスモーダルアテンションとメモリバンクに依存するストリーミングマルチモーダルトランスであり、トレーニング時に任意に長い入力シーケンスを処理し、推論時にストリーミング形式で実行する。
StreaMulTは、Multimodal Sentiment Analysisタスク用のCMU-MOSEIデータセットの最先端メトリクスを改善し、他のマルチモーダルモデルよりもはるかに長い入力を処理することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing complexity of Industry 4.0 systems brings new challenges
regarding predictive maintenance tasks such as fault detection and diagnosis. A
corresponding and realistic setting includes multi-source data streams from
different modalities, such as sensors measurements time series, machine images,
textual maintenance reports, etc. These heterogeneous multimodal streams also
differ in their acquisition frequency, may embed temporally unaligned
information and can be arbitrarily long, depending on the considered system and
task. Whereas multimodal fusion has been largely studied in a static setting,
to the best of our knowledge, there exists no previous work considering
arbitrarily long multimodal streams alongside with related tasks such as
prediction across time. Thus, in this paper, we first formalize this paradigm
of heterogeneous multimodal learning in a streaming setting as a new one. To
tackle this challenge, we propose StreaMulT, a Streaming Multimodal Transformer
relying on cross-modal attention and on a memory bank to process arbitrarily
long input sequences at training time and run in a streaming way at inference.
StreaMulT improves the state-of-the-art metrics on CMU-MOSEI dataset for
Multimodal Sentiment Analysis task, while being able to deal with much longer
inputs than other multimodal models. The conducted experiments eventually
highlight the importance of the textual embedding layer, questioning recent
improvements in Multimodal Sentiment Analysis benchmarks.
- Abstract(参考訳): 産業4.0システムの複雑さの増大は、故障検出や診断などの予測メンテナンスタスクに新たな課題をもたらす。
対応する現実的な設定には、センサ計測時系列、マシンイメージ、テキストメンテナンスレポートなど、さまざまなモダリティからのマルチソースデータストリームが含まれる。
これらの異種マルチモーダルストリームは、取得頻度も異なり、時間的に不整合な情報を埋め込み、考慮されたシステムやタスクによって任意に長いことができる。
マルチモーダル融合は静的な環境で研究されているが、我々の知る限り、時間にわたって予測などの関連するタスクとともに、任意に長いマルチモーダルストリームを考慮に入れた以前の研究は存在しない。
そこで本稿では,ストリーミング環境における異種マルチモーダル学習のパラダイムを,新たな手法として定式化する。
この課題に対処するために,ストリームマルチモーダルトランスであるStreaMulTを提案する。これは,クロスモーダルアテンションとメモリバンクを用いて,トレーニング時に任意に長い入力シーケンスを処理し,推論時にストリーミング処理を行う。
StreaMulTは、Multimodal Sentiment Analysisタスク用のCMU-MOSEIデータセットの最先端メトリクスを改善し、他のマルチモーダルモデルよりもはるかに長い入力を処理することができる。
実験は最終的にテキスト埋め込み層の重要性を強調し、最近のマルチモーダル感性分析ベンチマークの改善を疑問視する。
関連論文リスト
- See it, Think it, Sorted: Large Multimodal Models are Few-shot Time Series Anomaly Analyzers [23.701716999879636]
時系列データの急激な増加に伴い,時系列異常検出(TSAD)はますます重要になりつつある。
本稿では,TMA(Time Series Anomaly Multimodal Analyzer)と呼ばれる先駆的なフレームワークを導入し,異常の検出と解釈を両立させる。
論文 参考訳(メタデータ) (2024-11-04T10:28:41Z) - DRFormer: Multi-Scale Transformer Utilizing Diverse Receptive Fields for Long Time-Series Forecasting [3.420673126033772]
本稿では,動的スパース学習アルゴリズムを用いた動的トークン化手法を提案する。
提案するDRFormerは,実世界の様々なデータセットを用いて評価し,既存の手法と比較して,その優位性を示す実験結果を得た。
論文 参考訳(メタデータ) (2024-08-05T07:26:47Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks [31.59812777504438]
提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。
我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
論文 参考訳(メタデータ) (2023-09-25T13:16:57Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Ti-MAE: Self-Supervised Masked Time Series Autoencoders [16.98069693152999]
本稿では,Ti-MAEという新しいフレームワークを提案する。
Ti-MAEは、埋め込み時系列データをランダムにマスクアウトし、オートエンコーダを学び、ポイントレベルでそれらを再構築する。
いくつかの公開実世界のデータセットの実験では、マスク付きオートエンコーディングのフレームワークが生データから直接強力な表現を学習できることが示されている。
論文 参考訳(メタデータ) (2023-01-21T03:20:23Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。