論文の概要: IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based
Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2402.01049v1
- Date: Thu, 1 Feb 2024 22:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:43:45.239123
- Title: IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based
Human Activity Recognition
- Title(参考訳): IMUGPT 2.0: センサに基づくヒューマンアクティビティ認識のための言語に基づくクロスモーダルトランスファー
- Authors: Zikang Leng, Amitrajit Bhattacharjee, Hrudhai Rajasekhar, Lizhe Zhang,
Elizabeth Bruda, Hyeokhyen Kwon, Thomas Pl\"otz
- Abstract要約: クロスモーダリティ転送アプローチは、既存のデータセットを、ビデオのようなソースモーダリティからターゲットモーダリティ(IMU)に変換する。
我々はIMUGPTに2つの新しい拡張を導入し、実用的なHARアプリケーションシナリオの利用を拡大した。
我々の多様性指標は、仮想IMUデータの生成に必要な労力を少なくとも50%削減できることを示した。
- 参考スコア(独自算出の注目度): 0.19791587637442667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the primary challenges in the field of human activity recognition
(HAR) is the lack of large labeled datasets. This hinders the development of
robust and generalizable models. Recently, cross modality transfer approaches
have been explored that can alleviate the problem of data scarcity. These
approaches convert existing datasets from a source modality, such as video, to
a target modality (IMU). With the emergence of generative AI models such as
large language models (LLMs) and text-driven motion synthesis models, language
has become a promising source data modality as well as shown in proof of
concepts such as IMUGPT. In this work, we conduct a large-scale evaluation of
language-based cross modality transfer to determine their effectiveness for
HAR. Based on this study, we introduce two new extensions for IMUGPT that
enhance its use for practical HAR application scenarios: a motion filter
capable of filtering out irrelevant motion sequences to ensure the relevance of
the generated virtual IMU data, and a set of metrics that measure the diversity
of the generated data facilitating the determination of when to stop generating
virtual IMU data for both effective and efficient processing. We demonstrate
that our diversity metrics can reduce the effort needed for the generation of
virtual IMU data by at least 50%, which open up IMUGPT for practical use cases
beyond a mere proof of concept.
- Abstract(参考訳): 人間活動認識(HAR)の分野における主要な課題の1つは、大きなラベル付きデータセットの欠如である。
これにより、堅牢で一般化可能なモデルの開発が妨げられる。
近年,データ不足の問題を緩和するクロスモダリティ転送手法が検討されている。
これらのアプローチは、既存のデータセットを、ビデオのようなソースモダリティからターゲットモダリティ(IMU)に変換する。
大規模言語モデル(LLM)やテキスト駆動型モーション合成モデルなどの生成AIモデルの出現に伴い、言語はIMUGPTのような概念の証明と同様に、有望なソースデータモダリティとなった。
本研究では,HARの有効性を決定するために,言語に基づく相互モーダリティ伝達の大規模評価を行う。
本研究では,実際のHARアプリケーションシナリオにおけるIMUGPTの拡張として,生成した仮想IMUデータの関連性を確保するために,無関係な動作シーケンスをフィルタリング可能なモーションフィルタと,仮想IMUデータの生成を効果的かつ効率的な処理で停止するタイミングを決定するための,生成データの多様性を計測する指標のセットを導入する。
我々の多様性指標は、仮想IMUデータの生成に必要な労力を少なくとも50%削減できることを示した。
関連論文リスト
- Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs [9.570759294459629]
我々は,制限データの問題に対処するために,新しいマルチモーダル,マルチタスク,コントラストベースのフレームワークアプローチであるMulti$3$Netを提案する。
本手法はウェアラブルHAR性能の向上,特に微妙な活動の認識を目的としている。
論文 参考訳(メタデータ) (2024-06-03T13:28:42Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - The Unreasonable Effectiveness of Large Language-Vision Models for
Source-free Video Domain Adaptation [56.61543110071199]
Source-Free Video Unsupervised Domain Adaptation (SFVUDA)タスクは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、ラベル付きターゲットデータセットに適応させることによって構成される。
従来のアプローチでは、ターゲットデータ自体から派生した自己スーパービジョンを活用してSFVUDAに対処しようと試みてきた。
我々は、LLVMがドメインシフトに対して驚くほど堅牢になる前に、リッチな世界を含むという理論によって、LLVM(Large Language-Vision Models)から"web-supervision"を利用するアプローチを取る。
論文 参考訳(メタデータ) (2023-08-17T18:12:05Z) - Generating Virtual On-body Accelerometer Data from Virtual Textual
Descriptions for Human Activity Recognition [0.6445605125467573]
本稿では,動作モデル合成,T2M-GPT,後に仮想IMUデータストリームに変換することで,人間の3次元動作シーケンスを生成する自動パイプラインを提案する。
我々は3つのHARデータセット(RealWorld、PAMAP2、USC-HAD)にアプローチをベンチマークし、我々の新しいアプローチを用いて生成された仮想IMUトレーニングデータを使用することで、HARモデルの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-05-04T22:14:44Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - IMUTube: Automatic Extraction of Virtual on-body Accelerometry from
Video for Human Activity Recognition [12.91206329972949]
IMUTubeは、人間の活動の映像をIMUデータの仮想ストリームに変換する自動処理パイプラインである。
これらの仮想IMUストリームは、人体の様々な場所で加速度計を表現している。
本稿では,実際のIMUデータにより,既知のHARデータセット上での各種モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-29T21:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。