論文の概要: IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based
Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2402.01049v1
- Date: Thu, 1 Feb 2024 22:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:43:45.239123
- Title: IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based
Human Activity Recognition
- Title(参考訳): IMUGPT 2.0: センサに基づくヒューマンアクティビティ認識のための言語に基づくクロスモーダルトランスファー
- Authors: Zikang Leng, Amitrajit Bhattacharjee, Hrudhai Rajasekhar, Lizhe Zhang,
Elizabeth Bruda, Hyeokhyen Kwon, Thomas Pl\"otz
- Abstract要約: クロスモーダリティ転送アプローチは、既存のデータセットを、ビデオのようなソースモーダリティからターゲットモーダリティ(IMU)に変換する。
我々はIMUGPTに2つの新しい拡張を導入し、実用的なHARアプリケーションシナリオの利用を拡大した。
我々の多様性指標は、仮想IMUデータの生成に必要な労力を少なくとも50%削減できることを示した。
- 参考スコア(独自算出の注目度): 0.19791587637442667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the primary challenges in the field of human activity recognition
(HAR) is the lack of large labeled datasets. This hinders the development of
robust and generalizable models. Recently, cross modality transfer approaches
have been explored that can alleviate the problem of data scarcity. These
approaches convert existing datasets from a source modality, such as video, to
a target modality (IMU). With the emergence of generative AI models such as
large language models (LLMs) and text-driven motion synthesis models, language
has become a promising source data modality as well as shown in proof of
concepts such as IMUGPT. In this work, we conduct a large-scale evaluation of
language-based cross modality transfer to determine their effectiveness for
HAR. Based on this study, we introduce two new extensions for IMUGPT that
enhance its use for practical HAR application scenarios: a motion filter
capable of filtering out irrelevant motion sequences to ensure the relevance of
the generated virtual IMU data, and a set of metrics that measure the diversity
of the generated data facilitating the determination of when to stop generating
virtual IMU data for both effective and efficient processing. We demonstrate
that our diversity metrics can reduce the effort needed for the generation of
virtual IMU data by at least 50%, which open up IMUGPT for practical use cases
beyond a mere proof of concept.
- Abstract(参考訳): 人間活動認識(HAR)の分野における主要な課題の1つは、大きなラベル付きデータセットの欠如である。
これにより、堅牢で一般化可能なモデルの開発が妨げられる。
近年,データ不足の問題を緩和するクロスモダリティ転送手法が検討されている。
これらのアプローチは、既存のデータセットを、ビデオのようなソースモダリティからターゲットモダリティ(IMU)に変換する。
大規模言語モデル(LLM)やテキスト駆動型モーション合成モデルなどの生成AIモデルの出現に伴い、言語はIMUGPTのような概念の証明と同様に、有望なソースデータモダリティとなった。
本研究では,HARの有効性を決定するために,言語に基づく相互モーダリティ伝達の大規模評価を行う。
本研究では,実際のHARアプリケーションシナリオにおけるIMUGPTの拡張として,生成した仮想IMUデータの関連性を確保するために,無関係な動作シーケンスをフィルタリング可能なモーションフィルタと,仮想IMUデータの生成を効果的かつ効率的な処理で停止するタイミングを決定するための,生成データの多様性を計測する指標のセットを導入する。
我々の多様性指標は、仮想IMUデータの生成に必要な労力を少なくとも50%削減できることを示した。
関連論文リスト
- Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - The Unreasonable Effectiveness of Large Language-Vision Models for
Source-free Video Domain Adaptation [56.61543110071199]
Source-Free Video Unsupervised Domain Adaptation (SFVUDA)タスクは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、ラベル付きターゲットデータセットに適応させることによって構成される。
従来のアプローチでは、ターゲットデータ自体から派生した自己スーパービジョンを活用してSFVUDAに対処しようと試みてきた。
我々は、LLVMがドメインシフトに対して驚くほど堅牢になる前に、リッチな世界を含むという理論によって、LLVM(Large Language-Vision Models)から"web-supervision"を利用するアプローチを取る。
論文 参考訳(メタデータ) (2023-08-17T18:12:05Z) - Generating Virtual On-body Accelerometer Data from Virtual Textual
Descriptions for Human Activity Recognition [0.6445605125467573]
本稿では,動作モデル合成,T2M-GPT,後に仮想IMUデータストリームに変換することで,人間の3次元動作シーケンスを生成する自動パイプラインを提案する。
我々は3つのHARデータセット(RealWorld、PAMAP2、USC-HAD)にアプローチをベンチマークし、我々の新しいアプローチを用いて生成された仮想IMUトレーニングデータを使用することで、HARモデルの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-05-04T22:14:44Z) - Towards Estimating Transferability using Hard Subsets [25.86053764521497]
HASTEは、ターゲットデータのより厳しいサブセットのみを用いて、ソースモデルの特定のターゲットタスクへの転送可能性を推定する新しい戦略である。
HASTEは既存の転送可能性測定値と組み合わせて信頼性を向上させることができることを示す。
複数のソースモデルアーキテクチャ、ターゲットデータセット、トランスファー学習タスクにまたがる実験結果から、HASTEの修正されたメトリクスは、一貫して、あるいは、アートトランスファービリティーメトリクスの状態と同等であることが示された。
論文 参考訳(メタデータ) (2023-01-17T14:50:18Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Versatile Multi-Modal Pre-Training for Human-Centric Perception [32.62404509079062]
本稿では,効果的な表現学習のための人間中心型マルチモーダルコントラスト学習フレームワークHCMoCoを提案する。
モーダル不変潜在空間を階層的に学習することで、サンプル内コントラスト学習とスパース構造対応コントラスト学習を目標とする。
異なるモードの下流4つのタスクの実験によりHCMoCoの有効性が示された。
論文 参考訳(メタデータ) (2022-03-25T17:58:29Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - IMUTube: Automatic Extraction of Virtual on-body Accelerometry from
Video for Human Activity Recognition [12.91206329972949]
IMUTubeは、人間の活動の映像をIMUデータの仮想ストリームに変換する自動処理パイプラインである。
これらの仮想IMUストリームは、人体の様々な場所で加速度計を表現している。
本稿では,実際のIMUデータにより,既知のHARデータセット上での各種モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-29T21:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。