論文の概要: Large Language Models Memorize Sensor Datasets! Implications on Human Activity Recognition Research
- arxiv url: http://arxiv.org/abs/2406.05900v1
- Date: Sun, 9 Jun 2024 19:38:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:28:18.741683
- Title: Large Language Models Memorize Sensor Datasets! Implications on Human Activity Recognition Research
- Title(参考訳): センサデータセットを記憶する大規模言語モデル! 人間の活動認識研究への示唆
- Authors: Harish Haresamudram, Hrudhai Rajasekhar, Nikhil Murlidhar Shanbhogue, Thomas Ploetz,
- Abstract要約: 本研究では,Large Language Models (LLMs) が,訓練中にHAR(Human Activity Recognition)データセットにアクセス可能かどうかを検討する。
ほとんどの現代のLLMは、事実上(アクセス可能な)インターネット上でトレーニングされています。
特にダフネットデータセットでは、GPT-4はセンサー読み取りのブロックを再現することができる。
- 参考スコア(独自算出の注目度): 0.23982628363233693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The astonishing success of Large Language Models (LLMs) in Natural Language Processing (NLP) has spurred their use in many application domains beyond text analysis, including wearable sensor-based Human Activity Recognition (HAR). In such scenarios, often sensor data are directly fed into an LLM along with text instructions for the model to perform activity classification. Seemingly remarkable results have been reported for such LLM-based HAR systems when they are evaluated on standard benchmarks from the field. Yet, we argue, care has to be taken when evaluating LLM-based HAR systems in such a traditional way. Most contemporary LLMs are trained on virtually the entire (accessible) internet -- potentially including standard HAR datasets. With that, it is not unlikely that LLMs actually had access to the test data used in such benchmark experiments.The resulting contamination of training data would render these experimental evaluations meaningless. In this paper we investigate whether LLMs indeed have had access to standard HAR datasets during training. We apply memorization tests to LLMs, which involves instructing the models to extend given snippets of data. When comparing the LLM-generated output to the original data we found a non-negligible amount of matches which suggests that the LLM under investigation seems to indeed have seen wearable sensor data from the benchmark datasets during training. For the Daphnet dataset in particular, GPT-4 is able to reproduce blocks of sensor readings. We report on our investigations and discuss potential implications on HAR research, especially with regards to reporting results on experimental evaluation
- Abstract(参考訳): 自然言語処理(NLP)におけるLarge Language Models(LLMs)の成功は、ウェアラブルセンサーベースのHuman Activity Recognition(HAR)など、テキスト分析以外の多くのアプリケーション領域での利用を加速させた。
このようなシナリオでは、しばしばセンサーデータを LLM に直接入力し、モデルがアクティビティ分類を行うためのテキスト命令を出力する。
LLMをベースとしたHARシステムは,現場の標準ベンチマークで評価された場合,驚くべき結果が報告されている。
しかし,LLMに基づくHARシステムを従来の方法で評価するには,注意が必要である。
ほとんどの現代のLLMは、事実上(アクセス可能な)インターネット上でトレーニングされています。
これにより、LCMが実際にそのようなベンチマーク実験で使用されるテストデータにアクセスできた可能性は低いが、その結果、トレーニングデータの汚染はこれらの実験評価を意味のないものにする。
本稿では,LLMがトレーニング中に標準HARデータセットにアクセスできたかどうかを検討する。
我々は、与えられたデータのスニペットを拡張するためにモデルを指示するLLMに記憶テストを適用する。
LLMの生成した出力と元のデータを比較すると、非無視の数の一致が見つかり、調査中のLCMが実際にトレーニング中にベンチマークデータセットからウェアラブルセンサーデータを見たことが示唆された。
特にダフネットデータセットでは、GPT-4はセンサー読み取りのブロックを再現することができる。
本研究の報告とHAR研究への潜在的影響,特に実験評価の報告結果について検討する。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models [21.10890310571397]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
この研究は、トレーニング中に言語モデルがデータセットを見たかどうかを評価するためのさまざまなテクニックを導入している。
次に、トレーニング中に見られたデータセット上でのLLMの数発の学習性能と、トレーニング後にリリースされたデータセットのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-04-09T10:58:21Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - HARGPT: Are LLMs Zero-Shot Human Activity Recognizers? [9.414529772034985]
我々は,Large Language Models (LLM) が生のIMUデータを理解し,ゼロショットで人間の活動認識タスクを実行できることを示す。
我々は、GPT4上のHARGPTを、クラス間の類似性の異なる2つの公開データセットを用いてベンチマークし、従来の機械学習と最先端の深い分類モデルの両方に基づいて、様々なベースラインを比較した。
注目すべきは、LLMは生のIMUデータから人間の活動を認識し、両方のデータセットのベースラインを一貫して上回っていることだ。
論文 参考訳(メタデータ) (2024-03-05T07:34:51Z) - Evaluating Large Language Models as Virtual Annotators for Time-series Physical Sensing Data [5.092345761847645]
時系列物理センシングデータをラベル付けするための仮想アノテータとして, 最先端(SOTA) LLM が利用できるかを検討した。
論文 参考訳(メタデータ) (2024-03-02T08:29:08Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。