Fugu-MT 論文翻訳(概要): METEOR: Learning Memory and Time Efficient Representations from Multi-modal Data Streams

論文の概要: METEOR: Learning Memory and Time Efficient Representations from Multi-modal Data Streams

arxiv url: http://arxiv.org/abs/2007.11847v1
Date: Thu, 23 Jul 2020 08:18:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 11:55:04.425596
Title: METEOR: Learning Memory and Time Efficient Representations from Multi-modal Data Streams
Title（参考訳）: METEOR:マルチモーダルデータストリームからの記憶と時間効率の学習
Authors: Amila Silva, Shanika Karunasekera, Christopher Leckie, Ling Luo
Abstract要約: 本稿では,Memory and Time Efficient Online Representation Learning(METEOR)について紹介する。従来のメモリ集約型埋め込みと比較して,METEORはメモリ使用量を約80%削減しつつ,表現の質を保っていることを示す。
参考スコア（独自算出の注目度）: 19.22829945777267
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many learning tasks involve multi-modal data streams, where continuous data from different modes convey a comprehensive description about objects. A major challenge in this context is how to efficiently interpret multi-modal information in complex environments. This has motivated numerous studies on learning unsupervised representations from multi-modal data streams. These studies aim to understand higher-level contextual information (e.g., a Twitter message) by jointly learning embeddings for the lower-level semantic units in different modalities (e.g., text, user, and location of a Twitter message). However, these methods directly associate each low-level semantic unit with a continuous embedding vector, which results in high memory requirements. Hence, deploying and continuously learning such models in low-memory devices (e.g., mobile devices) becomes a problem. To address this problem, we present METEOR, a novel MEmory and Time Efficient Online Representation learning technique, which: (1) learns compact representations for multi-modal data by sharing parameters within semantically meaningful groups and preserves the domain-agnostic semantics; (2) can be accelerated using parallel processes to accommodate different stream rates while capturing the temporal changes of the units; and (3) can be easily extended to capture implicit/explicit external knowledge related to multi-modal data streams. We evaluate METEOR using two types of multi-modal data streams (i.e., social media streams and shopping transaction streams) to demonstrate its ability to adapt to different domains. Our results show that METEOR preserves the quality of the representations while reducing memory usage by around 80% compared to the conventional memory-intensive embeddings.
Abstract（参考訳）: 多くの学習タスクにはマルチモーダルデータストリームが含まれており、異なるモードからの連続データがオブジェクトに関する包括的な記述を伝達する。この文脈における大きな課題は、複雑な環境でマルチモーダル情報を効率的に解釈する方法である。これはマルチモーダルデータストリームから教師なし表現を学ぶための多くの研究を動機付けている。これらの研究は、異なるモダリティ(例えば、テキスト、ユーザ、Twitterメッセージの位置)で下位レベルのセマンティックユニットの埋め込みを共同で学習することで、高レベルのコンテキスト情報(例えば、Twitterメッセージ)を理解することを目的としている。しかし、これらの手法は各低レベルのセマンティックユニットを連続的な埋め込みベクトルと直接関連付け、高いメモリ要求をもたらす。したがって、そのようなモデルを低メモリデバイス(モバイルデバイスなど)にデプロイし、継続的に学習することが問題となる。 To address this problem, we present METEOR, a novel MEmory and Time Efficient Online Representation learning technique, which: (1) learns compact representations for multi-modal data by sharing parameters within semantically meaningful groups and preserves the domain-agnostic semantics; (2) can be accelerated using parallel processes to accommodate different stream rates while capturing the temporal changes of the units; and (3) can be easily extended to capture implicit/explicit external knowledge related to multi-modal data streams. 我々は,2種類のマルチモーダルデータストリーム(ソーシャルメディアストリームとショッピングトランザクションストリーム)を用いてMETEORを評価し,異なるドメインに適応できることを実証する。その結果,METEORは従来のメモリ集約型埋め込みと比較してメモリ使用量を約80%削減し,表現の質を保っていることがわかった。

関連論文リスト

SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
Exemplar Masking for Multimodal Incremental Learning [47.18796033633918]
マルチモーダル・インクリメンタルな学習は、新しい知識を同時に学習しながら、複数のモーダルからの情報を消化する必要がある。本稿では,従来の知識を効果的に再生するための模擬マスキングフレームワークを提案する。我々は,従来のマスキングフレームワークが,同じメモリバッファ下での破滅的な忘れ込みに対して,より効率的で堅牢であることを示す。
論文参考訳（メタデータ） (2024-12-12T18:40:20Z)
Semantic-Aware Representation of Multi-Modal Data for Data Ingress: A Literature Review [1.8590097948961688]
LLM(Large Language Models)のような生成AIは、テキスト、画像、オーディオ、ビデオなどのマルチモーダルデータを処理するために広く採用されている。このデータを効率的に管理することは、データ量が2倍にならないため、業界倍の課題となっている。本研究では,モノモーダル,マルチモーダル,クロスモーダルデータから埋め込みを抽出するセマンティック・アウェア技術に着目した。
論文参考訳（メタデータ） (2024-07-17T09:49:11Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文参考訳（メタデータ） (2023-06-08T15:17:04Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-29T20:39:36Z)
Generalized Product-of-Experts for Learning Multimodal Representations in Noisy Environments [18.14974353615421]
本稿では,エキスパート手法の一般化による雑音環境下でのマルチモーダル表現学習手法を提案する。提案手法では,モダリティ毎に異なるネットワークをトレーニングし,そのモダリティから得られる情報の信頼性を評価する。マルチモーダル3Dハンドプレース推定とマルチモーダル手術ビデオセグメンテーションという,2つの挑戦的なベンチマークで最先端のパフォーマンスを得た。
論文参考訳（メタデータ） (2022-11-07T14:27:38Z)
High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文参考訳（メタデータ） (2022-03-02T18:56:20Z)
Unsupervised Multimodal Language Representations using Convolutional Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文参考訳（メタデータ） (2021-10-06T18:28:07Z)
Multimodal Clustering Networks for Self-supervised Learning from Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文参考訳（メタデータ） (2021-04-26T15:55:01Z)
Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文参考訳（メタデータ） (2021-02-09T14:05:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。