Fugu-MT 論文翻訳(概要): Generating Virtual On-body Accelerometer Data from Virtual Textual Descriptions for Human Activity Recognition

論文の概要: Generating Virtual On-body Accelerometer Data from Virtual Textual Descriptions for Human Activity Recognition

arxiv url: http://arxiv.org/abs/2305.03187v1
Date: Thu, 4 May 2023 22:14:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-08 15:56:06.149705
Title: Generating Virtual On-body Accelerometer Data from Virtual Textual Descriptions for Human Activity Recognition
Title（参考訳）: 人間の行動認識のための仮想テキスト記述から仮想体加速度計データを生成する
Authors: Zikang Leng, Hyeokhyen Kwon, Thomas Pl\"otz
Abstract要約: 本稿では,動作モデル合成,T2M-GPT,後に仮想IMUデータストリームに変換することで,人間の3次元動作シーケンスを生成する自動パイプラインを提案する。我々は3つのHARデータセット(RealWorld、PAMAP2、USC-HAD)にアプローチをベンチマークし、我々の新しいアプローチを用いて生成された仮想IMUトレーニングデータを使用することで、HARモデルの性能が大幅に向上することを示した。
参考スコア（独自算出の注目度）: 0.6445605125467573
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The development of robust, generalized models in human activity recognition (HAR) has been hindered by the scarcity of large-scale, labeled data sets. Recent work has shown that virtual IMU data extracted from videos using computer vision techniques can lead to substantial performance improvements when training HAR models combined with small portions of real IMU data. Inspired by recent advances in motion synthesis from textual descriptions and connecting Large Language Models (LLMs) to various AI models, we introduce an automated pipeline that first uses ChatGPT to generate diverse textual descriptions of activities. These textual descriptions are then used to generate 3D human motion sequences via a motion synthesis model, T2M-GPT, and later converted to streams of virtual IMU data. We benchmarked our approach on three HAR datasets (RealWorld, PAMAP2, and USC-HAD) and demonstrate that the use of virtual IMU training data generated using our new approach leads to significantly improved HAR model performance compared to only using real IMU data. Our approach contributes to the growing field of cross-modality transfer methods and illustrate how HAR models can be improved through the generation of virtual training data that do not require any manual effort.
Abstract（参考訳）: 人間活動認識(HAR)における堅牢で一般化されたモデルの開発は、大規模ラベル付きデータセットの不足によって妨げられている。近年の研究では、コンピュータビジョン技術を用いてビデオから抽出した仮想IMUデータが、実際のIMUデータの一部と組み合わさったHARモデルのトレーニングにおいて、大幅な性能向上をもたらすことが示されている。テキスト記述からの動作合成の最近の進歩と大規模言語モデル(LLM)を様々なAIモデルに接続することから着想を得て、まずChatGPTを使用してさまざまなアクティビティのテキスト記述を生成する自動パイプラインを導入する。これらのテキスト記述は、モーション合成モデルT2M-GPTを介して3次元の人間の動作シーケンスを生成するために使用され、後に仮想IMUデータストリームに変換される。我々は3つのHARデータセット(RealWorld, PAMAP2, USC-HAD)にアプローチをベンチマークし、我々の新しいアプローチを用いて生成された仮想IMUトレーニングデータを使用することで、実際のIMUデータのみを使用する場合と比較して、HARモデルの性能が大幅に向上することを示した。提案手法はクロスモダリティ伝達法の普及に寄与し,手作業を必要としない仮想トレーニングデータの生成を通じてharモデルをどのように改善できるかを説明する。

関連論文リスト

SSSUMO: Real-Time Semi-Supervised Submovement Decomposition [0.6499759302108926]
運動分析は、運動制御に関する貴重な洞察を提供する。既存の手法は、復元精度、計算コスト、検証に苦慮している。半教師付き学習フレームワークを用いて,これらの課題に対処する。
論文参考訳（メタデータ） (2025-07-08T21:26:25Z)
Scaling Human Activity Recognition: A Comparative Evaluation of Synthetic Data Generation and Augmentation Techniques [1.0712226955584796]
HAR(Human Activity Recognition)は、ラベル付きデータセットの不足によってしばしば制限される。近年, 仮想慣性測定ユニット(IMU)データの生成について, クロスモーダル転送による検討が行われている。
論文参考訳（メタデータ） (2025-06-09T10:25:53Z)
UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文参考訳（メタデータ） (2025-04-02T22:17:30Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文参考訳（メタデータ） (2025-01-03T19:00:00Z)
Distillation of Diffusion Features for Semantic Correspondence [23.54555663670558]
本稿では,効率の低下を克服する新しい知識蒸留手法を提案する。本稿では,2つの大きな視覚基盤モデルを用いて,これらの補足モデルの性能を,計算コストの低減で高精度に維持する1つの小さなモデルに蒸留する方法を示す。実験結果から,3次元データ拡張による蒸留モデルにより,計算負荷を大幅に削減し,セマンティックビデオ対応などの実世界のアプリケーションの実現性を向上させるとともに,現在の最先端手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-04T17:55:33Z)
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文参考訳（メタデータ） (2024-11-14T03:13:26Z)
3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文参考訳（メタデータ） (2024-08-25T09:31:22Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
Enhancing Inertial Hand based HAR through Joint Representation of Language, Pose and Synthetic IMUs [9.570759294459629]
我々は,制限データの問題に対処するために,新しいマルチモーダル,マルチタスク,コントラストベースのフレームワークアプローチであるMulti$3$Netを提案する。本手法はウェアラブルHAR性能の向上,特に微妙な活動の認識を目的としている。
論文参考訳（メタデータ） (2024-06-03T13:28:42Z)
IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based Human Activity Recognition [0.19791587637442667]
クロスモーダリティ転送アプローチは、既存のデータセットを、ビデオのようなソースモーダリティからターゲットモーダリティ(IMU)に変換する。我々はIMUGPTに2つの新しい拡張を導入し、実用的なHARアプリケーションシナリオの利用を拡大した。我々の多様性指標は、仮想IMUデータの生成に必要な労力を少なくとも50%削減できることを示した。
論文参考訳（メタデータ） (2024-02-01T22:37:33Z)
Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。 ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文参考訳（メタデータ） (2023-12-28T23:34:43Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
CROMOSim: A Deep Learning-based Cross-modality Inertial Measurement Simulator [7.50015216403068]
慣性測定装置 (IMU) のデータは, 人体移動の監視と評価に利用されてきた。データ不足を緩和するため,クロスモーダルセンサシミュレータであるCROMOSimを設計した。モーションキャプチャシステムや単眼RGBカメラから高忠実度仮想IMUセンサーデータをシミュレートする。
論文参考訳（メタデータ） (2022-02-21T22:30:43Z)
TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文参考訳（メタデータ） (2021-05-17T15:33:25Z)
IMUTube: Automatic Extraction of Virtual on-body Accelerometry from Video for Human Activity Recognition [12.91206329972949]
IMUTubeは、人間の活動の映像をIMUデータの仮想ストリームに変換する自動処理パイプラインである。これらの仮想IMUストリームは、人体の様々な場所で加速度計を表現している。本稿では,実際のIMUデータにより,既知のHARデータセット上での各種モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2020-05-29T21:50:38Z)
A Deep Learning Method for Complex Human Activity Recognition Using Virtual Wearable Sensors [22.923108537119685]
センサに基づくヒューマンアクティビティ認識(HAR)は、現在、複数のアプリケーション領域で研究ホットスポットとなっている。本研究では,実シーンにおける複雑なHARの深層学習に基づく新しい手法を提案する。提案手法は驚くほど数イテレーションで収束し、実際のIMUデータセット上で91.15%の精度が得られる。
論文参考訳（メタデータ） (2020-03-04T03:31:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。