論文の概要: StreaMulT: Streaming Multimodal Transformer for Heterogeneous and
Arbitrary Long Sequential Data
- arxiv url: http://arxiv.org/abs/2110.08021v1
- Date: Fri, 15 Oct 2021 11:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:20:54.669774
- Title: StreaMulT: Streaming Multimodal Transformer for Heterogeneous and
Arbitrary Long Sequential Data
- Title(参考訳): StreaMulT:不均一および任意列データのためのマルチモーダル変換器
- Authors: Victor Pellegrain (1 and 2), Myriam Tami (2), Michel Batteux (1),
C\'eline Hudelot (2) ((1) Institut de Recherche Technologique SystemX, (2)
Universit\'e Paris-Saclay, CentraleSup\'elec, MICS)
- Abstract要約: 一般的なアプリケーションは、例えば、マルチモーダルな異種データ(センサーデータ、監視レポート、画像など)から、長年の産業または実生活で監視されるシステムである。
本稿では,ストリームマルチモーダル変換器であるStreaMulTを提案する。これはクロスモーダルアテンションと拡張メモリバンクを利用して,トレーニング時に任意の長い入力シーケンスを処理し,推論時にストリーミング処理を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the problem of processing and combining efficiently
arbitrary long data streams, coming from different modalities with different
acquisition frequencies. Common applications can be, for instance, long-time
industrial or real-life systems monitoring from multimodal heterogeneous data
(sensor data, monitoring report, images, etc.). To tackle this problem, we
propose StreaMulT, a Streaming Multimodal Transformer, relying on cross-modal
attention and an augmented memory bank to process arbitrary long input
sequences at training time and run in a streaming way at inference. StreaMulT
reproduces state-of-the-art results on CMU-MOSEI dataset, while being able to
deal with much longer inputs than other models such as previous Multimodal
Transformer.
- Abstract(参考訳): 本稿では、異なるモーダルから取得頻度の異なる任意の長大データストリームを効率的に処理・結合する問題に取り組む。
一般的なアプリケーションは、例えば、マルチモーダルな異種データ(センサーデータ、監視レポート、画像など)から長時間の産業または実生活のシステム監視である。
この問題に対処するため,ストリームマルチモーダルトランスであるStreaMulTを提案する。これはクロスモーダルアテンションと拡張メモリバンクを用いて,トレーニング時に任意の長い入力シーケンスを処理し,推論時にストリーミング処理を行う。
StreaMulTはCMU-MOSEIデータセットで最先端の結果を再現し、以前のMultimodal Transformerのような他のモデルよりもはるかに長い入力を処理できる。
関連論文リスト
- See it, Think it, Sorted: Large Multimodal Models are Few-shot Time Series Anomaly Analyzers [23.701716999879636]
時系列データの急激な増加に伴い,時系列異常検出(TSAD)はますます重要になりつつある。
本稿では,TMA(Time Series Anomaly Multimodal Analyzer)と呼ばれる先駆的なフレームワークを導入し,異常の検出と解釈を両立させる。
論文 参考訳(メタデータ) (2024-11-04T10:28:41Z) - DRFormer: Multi-Scale Transformer Utilizing Diverse Receptive Fields for Long Time-Series Forecasting [3.420673126033772]
本稿では,動的スパース学習アルゴリズムを用いた動的トークン化手法を提案する。
提案するDRFormerは,実世界の様々なデータセットを用いて評価し,既存の手法と比較して,その優位性を示す実験結果を得た。
論文 参考訳(メタデータ) (2024-08-05T07:26:47Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks [31.59812777504438]
提案するMultiModNは,任意の数,組み合わせ,モダリティの列の潜在表現を融合するネットワークである。
我々は,MultiModNの逐次MM融合が並列融合のベースラインと比較して性能を損なわないことを示す。
論文 参考訳(メタデータ) (2023-09-25T13:16:57Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Ti-MAE: Self-Supervised Masked Time Series Autoencoders [16.98069693152999]
本稿では,Ti-MAEという新しいフレームワークを提案する。
Ti-MAEは、埋め込み時系列データをランダムにマスクアウトし、オートエンコーダを学び、ポイントレベルでそれらを再構築する。
いくつかの公開実世界のデータセットの実験では、マスク付きオートエンコーディングのフレームワークが生データから直接強力な表現を学習できることが示されている。
論文 参考訳(メタデータ) (2023-01-21T03:20:23Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。