論文の概要: Generating Virtual On-body Accelerometer Data from Virtual Textual
Descriptions for Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2305.03187v1
- Date: Thu, 4 May 2023 22:14:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 15:56:06.149705
- Title: Generating Virtual On-body Accelerometer Data from Virtual Textual
Descriptions for Human Activity Recognition
- Title(参考訳): 人間の行動認識のための仮想テキスト記述から仮想体加速度計データを生成する
- Authors: Zikang Leng, Hyeokhyen Kwon, Thomas Pl\"otz
- Abstract要約: 本稿では,動作モデル合成,T2M-GPT,後に仮想IMUデータストリームに変換することで,人間の3次元動作シーケンスを生成する自動パイプラインを提案する。
我々は3つのHARデータセット(RealWorld、PAMAP2、USC-HAD)にアプローチをベンチマークし、我々の新しいアプローチを用いて生成された仮想IMUトレーニングデータを使用することで、HARモデルの性能が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 0.6445605125467573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of robust, generalized models in human activity recognition
(HAR) has been hindered by the scarcity of large-scale, labeled data sets.
Recent work has shown that virtual IMU data extracted from videos using
computer vision techniques can lead to substantial performance improvements
when training HAR models combined with small portions of real IMU data.
Inspired by recent advances in motion synthesis from textual descriptions and
connecting Large Language Models (LLMs) to various AI models, we introduce an
automated pipeline that first uses ChatGPT to generate diverse textual
descriptions of activities. These textual descriptions are then used to
generate 3D human motion sequences via a motion synthesis model, T2M-GPT, and
later converted to streams of virtual IMU data. We benchmarked our approach on
three HAR datasets (RealWorld, PAMAP2, and USC-HAD) and demonstrate that the
use of virtual IMU training data generated using our new approach leads to
significantly improved HAR model performance compared to only using real IMU
data. Our approach contributes to the growing field of cross-modality transfer
methods and illustrate how HAR models can be improved through the generation of
virtual training data that do not require any manual effort.
- Abstract(参考訳): 人間活動認識(HAR)における堅牢で一般化されたモデルの開発は、大規模ラベル付きデータセットの不足によって妨げられている。
近年の研究では、コンピュータビジョン技術を用いてビデオから抽出した仮想IMUデータが、実際のIMUデータの一部と組み合わさったHARモデルのトレーニングにおいて、大幅な性能向上をもたらすことが示されている。
テキスト記述からの動作合成の最近の進歩と大規模言語モデル(LLM)を様々なAIモデルに接続することから着想を得て、まずChatGPTを使用してさまざまなアクティビティのテキスト記述を生成する自動パイプラインを導入する。
これらのテキスト記述は、モーション合成モデルT2M-GPTを介して3次元の人間の動作シーケンスを生成するために使用され、後に仮想IMUデータストリームに変換される。
我々は3つのHARデータセット(RealWorld, PAMAP2, USC-HAD)にアプローチをベンチマークし、我々の新しいアプローチを用いて生成された仮想IMUトレーニングデータを使用することで、実際のIMUデータのみを使用する場合と比較して、HARモデルの性能が大幅に向上することを示した。
提案手法はクロスモダリティ伝達法の普及に寄与し,手作業を必要としない仮想トレーニングデータの生成を通じてharモデルをどのように改善できるかを説明する。
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。
本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。
実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-12-04T17:55:33Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - 3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。
我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文 参考訳(メタデータ) (2024-08-25T09:31:22Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs [9.570759294459629]
我々は,制限データの問題に対処するために,新しいマルチモーダル,マルチタスク,コントラストベースのフレームワークアプローチであるMulti$3$Netを提案する。
本手法はウェアラブルHAR性能の向上,特に微妙な活動の認識を目的としている。
論文 参考訳(メタデータ) (2024-06-03T13:28:42Z) - IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based
Human Activity Recognition [0.19791587637442667]
クロスモーダリティ転送アプローチは、既存のデータセットを、ビデオのようなソースモーダリティからターゲットモーダリティ(IMU)に変換する。
我々はIMUGPTに2つの新しい拡張を導入し、実用的なHARアプリケーションシナリオの利用を拡大した。
我々の多様性指標は、仮想IMUデータの生成に必要な労力を少なくとも50%削減できることを示した。
論文 参考訳(メタデータ) (2024-02-01T22:37:33Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - CROMOSim: A Deep Learning-based Cross-modality Inertial Measurement
Simulator [7.50015216403068]
慣性測定装置 (IMU) のデータは, 人体移動の監視と評価に利用されてきた。
データ不足を緩和するため,クロスモーダルセンサシミュレータであるCROMOSimを設計した。
モーションキャプチャシステムや単眼RGBカメラから高忠実度仮想IMUセンサーデータをシミュレートする。
論文 参考訳(メタデータ) (2022-02-21T22:30:43Z) - IMUTube: Automatic Extraction of Virtual on-body Accelerometry from
Video for Human Activity Recognition [12.91206329972949]
IMUTubeは、人間の活動の映像をIMUデータの仮想ストリームに変換する自動処理パイプラインである。
これらの仮想IMUストリームは、人体の様々な場所で加速度計を表現している。
本稿では,実際のIMUデータにより,既知のHARデータセット上での各種モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-29T21:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。