論文の概要: IMG2IMU: Applying Knowledge from Large-Scale Images to IMU Applications
via Contrastive Learning
- arxiv url: http://arxiv.org/abs/2209.00945v1
- Date: Fri, 2 Sep 2022 11:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:45:14.884696
- Title: IMG2IMU: Applying Knowledge from Large-Scale Images to IMU Applications
via Contrastive Learning
- Title(参考訳): IMG2IMU:コントラスト学習による大規模画像からの知識をIMUアプリケーションに適用する
- Authors: Hyungjun Yoon, Hyeongheon Cha, Canh Hoang Nguyen, Taesik Gong, Sung-Ju
Lee
- Abstract要約: IMG2IMUは、大規模画像から多種多様な小ショットIMUセンシングタスクへの事前訓練表現を適応させる新しいアプローチである。
我々は,センサデータを視覚的に解釈可能なスペクトログラムに変換し,視覚から得られる知識を活用する。
5種類のIMUセンシングタスクについて評価したところ,IGG2IMUはベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 1.1399577852929499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in machine learning showed that pre-training representations
acquired via self-supervised learning could achieve high accuracy on tasks with
small training data. Unlike in vision and natural language processing domains,
such pre-training for IMU-based applications is challenging, as there are only
a few publicly available datasets with sufficient size and diversity to learn
generalizable representations. To overcome this problem, we propose IMG2IMU, a
novel approach that adapts pre-train representation from large-scale images to
diverse few-shot IMU sensing tasks. We convert the sensor data into visually
interpretable spectrograms for the model to utilize the knowledge gained from
vision. Further, we apply contrastive learning on an augmentation set we
designed to learn representations that are tailored to interpreting sensor
data. Our extensive evaluations on five different IMU sensing tasks show that
IMG2IMU consistently outperforms the baselines, illustrating that vision
knowledge can be incorporated into a few-shot learning environment for IMU
sensing tasks.
- Abstract(参考訳): 最近の機械学習の進歩により、自己教師付き学習によって得られる事前学習表現は、少ないトレーニングデータを持つタスクにおいて高い精度を達成することができる。
ビジョンや自然言語処理の領域とは異なり、imuベースのアプリケーションの事前トレーニングは困難であり、汎用的な表現を学ぶのに十分な大きさと多様性を持つ公開データセットはごくわずかである。
この問題を解決するために,大規模な画像から多種多様なショットIMUセンシングタスクへの事前訓練表現を適応させる新しいアプローチであるIGG2IMUを提案する。
センサデータを視覚的に解釈可能なスペクトログラムに変換し,視覚から得られる知識を活用する。
さらに,センサデータの解釈に適した表現を学習するための拡張集合に対して,コントラスト学習を適用した。
5つのIMUセンシングタスクに対する広範囲な評価は、IMG2IMUがベースラインを一貫して上回り、視覚知識をIMUセンシングタスクのための数発の学習環境に組み込むことができることを示している。
関連論文リスト
- PRIMUS: Pretraining IMU Encoders with Multimodal Self-Supervision [7.896850422430362]
パーソナルデバイスに埋め込まれた慣性測定ユニット(IMU)は、健康と健康に大きな応用を可能にしている。
ラベル付きIMUデータは少ないが、ラベル付きまたは弱いラベル付きIMUデータを収集して人間の動きをモデル化することができる。
ビデオやテキストのモダリティに対して、"pretrain and adapt"アプローチでは、ラベル付きまたは弱いラベル付きデータを大量に使用して、事前トレーニングを行い、強力な特徴抽出器を構築し、その後、限定ラベル付きデータを使用して特定のタスクに適応する。
このアプローチはIMUドメインでは,(1)事前学習手法がIMUの文脈であまり理解されていないこと,の2つの理由から広く採用されていない。
論文 参考訳(メタデータ) (2024-11-22T18:46:30Z) - Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。
体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。
実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文 参考訳(メタデータ) (2024-07-09T07:53:16Z) - MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition [2.7532797256542403]
HAR(Human Activity Recognition)は、医療、スポーツ、フィットネス、セキュリティなど、幅広い分野で応用されているAIの長年の問題である。
本研究では,HAR 性能を向上させるため,総合的な Fitness Multimodal Activity データセット (FiMAD) を導入する。
MM-Fit,myoGym, MotionSense, MHEALTH などの実HARデータセット上で,FiMAD で事前学習した分類器の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-06-06T08:42:36Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z) - A Deep Learning Method for Complex Human Activity Recognition Using
Virtual Wearable Sensors [22.923108537119685]
センサに基づくヒューマンアクティビティ認識(HAR)は、現在、複数のアプリケーション領域で研究ホットスポットとなっている。
本研究では,実シーンにおける複雑なHARの深層学習に基づく新しい手法を提案する。
提案手法は驚くほど数イテレーションで収束し、実際のIMUデータセット上で91.15%の精度が得られる。
論文 参考訳(メタデータ) (2020-03-04T03:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。