論文の概要: Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2205.10071v1
- Date: Fri, 20 May 2022 10:39:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 13:42:40.230574
- Title: Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition
- Title(参考訳): マルチモーダルヒューマンアクティビティ認識のためのクロスモーダル知識マイニングによるコントラスト学習
- Authors: Razvan Brinzea, Bulat Khaertdinov and Stylianos Asteriadis
- Abstract要約: 複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.869225486385596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Activity Recognition is a field of research where input data can take
many forms. Each of the possible input modalities describes human behaviour in
a different way, and each has its own strengths and weaknesses. We explore the
hypothesis that leveraging multiple modalities can lead to better recognition.
Since manual annotation of input data is expensive and time-consuming, the
emphasis is made on self-supervised methods which can learn useful feature
representations without any ground truth labels. We extend a number of recent
contrastive self-supervised approaches for the task of Human Activity
Recognition, leveraging inertial and skeleton data. Furthermore, we propose a
flexible, general-purpose framework for performing multimodal self-supervised
learning, named Contrastive Multiview Coding with Cross-Modal Knowledge Mining
(CMC-CMKM). This framework exploits modality-specific knowledge in order to
mitigate the limitations of typical self-supervised frameworks. The extensive
experiments on two widely-used datasets demonstrate that the suggested
framework significantly outperforms contrastive unimodal and multimodal
baselines on different scenarios, including fully-supervised fine-tuning,
activity retrieval and semi-supervised learning. Furthermore, it shows
performance competitive even compared to supervised methods.
- Abstract(参考訳): 人間の活動認識は、入力データが様々な形を取る研究分野である。
可能な入力モダリティはそれぞれ、人間の行動を異なる方法で表現し、それぞれ独自の強みと弱みを持っている。
我々は、複数のモダリティを活用することがより良い認識につながるという仮説を探求する。
入力データの手動アノテーションは高価で時間を要するため、真理ラベルを使わずに有用な特徴表現を学習できる自己教師型手法に重点を置いている。
慣性データと骨格データを利用して,人間の活動認識タスクに対する近年のコントラスト的自己教師付きアプローチを数多く拡張した。
さらに,CMC-CMKM (Contrastive Multiview Coding with Cross-Modal Knowledge Mining) という,マルチモーダルな自己教師型学習を実現するためのフレキシブルで汎用的なフレームワークを提案する。
このフレームワークは、典型的な自己管理フレームワークの制限を軽減するために、モダリティ固有の知識を利用する。
広範に使用されている2つのデータセットに関する広範な実験により、提案されたフレームワークは、完全な微調整、アクティビティ検索、半教師付き学習など、異なるシナリオにおいて、対照的な単調とマルチモーダルのベースラインを著しく上回ることを示した。
さらに、教師付き手法と比較しても性能の競争力を示す。
関連論文リスト
- Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - Multi-Modal Mutual Information (MuMMI) Training for Robust
Self-Supervised Deep Reinforcement Learning [13.937546816302715]
この研究は、複数の、信頼性の低いセンサーを使って、有用で堅牢な深層世界のモデルを学ぶことに焦点を当てている。
我々は、相互情報を低バウンドでトレーニングした、新しいマルチモーダルディープ潜在状態空間モデルに貢献する。
実験の結果,本手法は最先端の深層強化学習法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-06T01:39:21Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z) - Sense and Learn: Self-Supervision for Omnipresent Sensors [9.442811508809994]
我々は、生の知覚データから表現や特徴学習のためのSense and Learnというフレームワークを提案する。
これは、面倒なラベル付けプロセスに人間が関与することなく、注釈のないデータから、高レベルで広範囲に有用な特徴を学習できる補助的なタスクで構成されている。
提案手法は、教師付きアプローチと競合する結果を達成し、ネットワークを微調整し、ほとんどの場合、下流タスクを学習することでギャップを埋める。
論文 参考訳(メタデータ) (2020-09-28T11:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。