論文の概要: AI-Generated Fall Data: Assessing LLMs and Diffusion Model for Wearable Fall Detection
- arxiv url: http://arxiv.org/abs/2505.04660v1
- Date: Wed, 07 May 2025 02:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.61821
- Title: AI-Generated Fall Data: Assessing LLMs and Diffusion Model for Wearable Fall Detection
- Title(参考訳): AI生成フォールデータ:ウェアラブルフォール検出のためのLLMと拡散モデルの評価
- Authors: Sana Alamgeer, Yasine Souissi, Anne H. H. Ngu,
- Abstract要約: 転倒検知システムの訓練は、特に高齢者の実際の転倒データの不足により困難である。
本研究では,現実的な転倒シナリオのシミュレーションにおいて,テキスト・ツー・モーションモデルとテキスト・ツー・テキストモデルを評価する。
合成データセットを生成し、4つの実世界のベースラインデータセットと統合し、秋検出性能への影響を評価する。
- 参考スコア(独自算出の注目度): 3.5912245880418125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training fall detection systems is challenging due to the scarcity of real-world fall data, particularly from elderly individuals. To address this, we explore the potential of Large Language Models (LLMs) for generating synthetic fall data. This study evaluates text-to-motion (T2M, SATO, ParCo) and text-to-text models (GPT4o, GPT4, Gemini) in simulating realistic fall scenarios. We generate synthetic datasets and integrate them with four real-world baseline datasets to assess their impact on fall detection performance using a Long Short-Term Memory (LSTM) model. Additionally, we compare LLM-generated synthetic data with a diffusion-based method to evaluate their alignment with real accelerometer distributions. Results indicate that dataset characteristics significantly influence the effectiveness of synthetic data, with LLM-generated data performing best in low-frequency settings (e.g., 20Hz) while showing instability in high-frequency datasets (e.g., 200Hz). While text-to-motion models produce more realistic biomechanical data than text-to-text models, their impact on fall detection varies. Diffusion-based synthetic data demonstrates the closest alignment to real data but does not consistently enhance model performance. An ablation study further confirms that the effectiveness of synthetic data depends on sensor placement and fall representation. These findings provide insights into optimizing synthetic data generation for fall detection models.
- Abstract(参考訳): 転倒検知システムの訓練は、特に高齢者の実際の転倒データの不足により困難である。
これを解決するために,合成フォールデータを生成するためのLarge Language Models (LLMs) の可能性を探る。
本研究では,現実的な転倒シナリオのシミュレーションにおいて,テキスト・トゥ・モーション(T2M,SATO,ParCo)とテキスト・トゥ・モーションモデル(GPT4o,GPT4,Gemini)を評価する。
合成データセットを生成し、4つの実世界のベースラインデータセットと統合し、Long Short-Term Memory (LSTM)モデルを用いて秋検出性能への影響を評価する。
さらに, LLM合成データと拡散法を比較し, 実際の加速度計分布とのアライメントを評価する。
その結果, データセット特性は合成データの有効性に大きく影響し, LLM生成データは低周波設定(eg, 20Hz)で最適であり, 高周波データセット(eg, 200Hz)では不安定であることがわかった。
テキスト・トゥ・モーション・モデルはテキスト・ツー・テキスト・モデルよりも現実的なバイオメカニカル・データを生成するが、秋検出への影響は様々である。
拡散に基づく合成データは、実データに最も近い配向を示すが、モデル性能を一貫して向上させるものではない。
アブレーション研究により、合成データの有効性は、センサーの配置と転倒表現に依存することが確認された。
これらの知見は、転倒検出モデルのための合成データ生成の最適化に関する洞察を与える。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Evaluating the Impact of Synthetic Data on Object Detection Tasks in Autonomous Driving [0.0]
実・合成・混合データセットに基づいて訓練された2次元・3次元オブジェクト検出タスクを比較した。
その結果,実データと合成データを組み合わせることで,物体検出モデルのロバスト性や一般化が向上することが示唆された。
論文 参考訳(メタデータ) (2025-03-12T20:13:33Z) - Synthetic Data Can Mislead Evaluations: Membership Inference as Machine Text Detection [1.03590082373586]
会員評価における合成データの使用は、モデル記憶とデータ漏洩に関する誤った結論につながる可能性がある。
この問題は、実世界のサンプルの代わりに合成されたデータや機械で生成されたデータの損失など、モデル信号を用いた他の評価に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2025-01-20T23:19:15Z) - How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。
半合成データを得るために,人為的データに対するトークン編集を提案する。
論文 参考訳(メタデータ) (2024-12-19T09:43:39Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Synthetic Alone: Exploring the Dark Side of Synthetic Data for
Grammatical Error Correction [5.586798679167892]
データ中心のAIアプローチは、モデルを変更することなく、モデルのパフォーマンスを向上させることを目的としている。
データ品質管理手法は、実世界のデータで訓練されたモデルに肯定的な影響を与える。
合成データのみに基づいて訓練されたモデルでは、負の影響が観測される。
論文 参考訳(メタデータ) (2023-06-26T01:40:28Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。