論文の概要: Synthetic User Behavior Sequence Generation with Large Language Models for Smart Homes
- arxiv url: http://arxiv.org/abs/2501.19298v1
- Date: Fri, 31 Jan 2025 16:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:34.840633
- Title: Synthetic User Behavior Sequence Generation with Large Language Models for Smart Homes
- Title(参考訳): スマートホームのための大規模言語モデルを用いた合成ユーザ行動系列生成
- Authors: Zhiyao Xu, Dan Zhao, Qingsong Zou, Jingyu Xiao, Yong Jiang, Zhenhui Yuan, Qing Li,
- Abstract要約: 近年、スマートホームシステムが普及するにつれて、これらの環境におけるセキュリティの懸念が高まる。
現在、異常検出や行動予測モデルなど、ほとんどのスマートホームセキュリティソリューションは、事前にコンパイルされた固定データセットを使用してトレーニングされている。
下流スマートホームインテリジェンスモデルの一般化を促進するために,LLMを用いた合成データセット生成IoTGenフレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.992302869611105
- License:
- Abstract: In recent years, as smart home systems have become more widespread, security concerns within these environments have become a growing threat. Currently, most smart home security solutions, such as anomaly detection and behavior prediction models, are trained using fixed datasets that are precollected. However, the process of dataset collection is time-consuming and lacks the flexibility needed to adapt to the constantly evolving smart home environment. Additionally, the collection of personal data raises significant privacy concerns for users. Lately, large language models (LLMs) have emerged as a powerful tool for a wide range of tasks across diverse application domains, thanks to their strong capabilities in natural language processing, reasoning, and problem-solving. In this paper, we propose an LLM-based synthetic dataset generation IoTGen framework to enhance the generalization of downstream smart home intelligent models. By generating new synthetic datasets that reflect changes in the environment, smart home intelligent models can be retrained to overcome the limitations of fixed and outdated data, allowing them to better align with the dynamic nature of real-world home environments. Specifically, we first propose a Structure Pattern Perception Compression (SPPC) method tailored for IoT behavior data, which preserves the most informative content in the data while significantly reducing token consumption. Then, we propose a systematic approach to create prompts and implement data generation to automatically generate IoT synthetic data with normative and reasonable properties, assisting task models in adaptive training to improve generalization and real-world performance.
- Abstract(参考訳): 近年、スマートホームシステムが普及するにつれて、これらの環境におけるセキュリティの懸念が高まる。
現在、異常検出や行動予測モデルなど、ほとんどのスマートホームセキュリティソリューションは、事前にコンパイルされた固定データセットを使用してトレーニングされている。
しかし、データセット収集のプロセスは時間がかかり、常に進化するスマートホーム環境に適応するために必要な柔軟性が欠如している。
さらに、個人情報の収集は、ユーザーにとって重要なプライバシー上の懸念を引き起こす。
近年,自然言語処理や推論,問題解決などにおいて,さまざまなアプリケーション領域にまたがるタスクの強力なツールとして,大規模言語モデル(LLM)が登場している。
本稿では、下流スマートホームインテリジェンスモデルの一般化を促進するために、LLMベースの合成データセット生成IoTGenフレームワークを提案する。
環境の変化を反映した新しい合成データセットを生成することで、スマートホームのインテリジェントモデルを再トレーニングすることで、固定データや時代遅れデータの制限を克服し、現実のホーム環境のダイナミックな性質との整合性を向上することができる。
具体的には、まず、IoT行動データに適した構造パターン知覚圧縮(SPPC)手法を提案する。
そこで,本研究では,プロンプトを作成し,データ生成を実装し,規範的かつ合理的な特性を持つIoT合成データを自動生成し,適応学習におけるタスクモデルの支援を行い,一般化と実世界のパフォーマンスを向上させるための体系的なアプローチを提案する。
関連論文リスト
- Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Continuous GNN-based Anomaly Detection on Edge using Efficient Adaptive Knowledge Graph Learning [4.479496001941191]
ビデオ異常検出(VAD)は、インテリジェント監視、証拠調査、暴力検出などのアプリケーションにおいて重要なタスクである。
VADの従来のアプローチは、しばしば大規模で事前訓練されたモデルの微調整に依存しており、計算コストが高く、リアルタイムやリソース制約のある環境では実用的ではない。
本稿では,クラウド依存の限界を克服し,エッジデバイス上での連続KG適応を容易にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-13T22:55:45Z) - Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - SmartPretrain: Model-Agnostic and Dataset-Agnostic Representation Learning for Motion Prediction [37.461695201579914]
動作予測のための汎用的でスケーラブルなフレームワークであるSmartPretrainを提案する。
提案手法は対照的かつ再構成的なSSLを統合し,生成的パラダイムと識別的パラダイムの両方の長所を活用する。
SmartPretrainは、データセット、データ分割、主要なメトリクスにわたる最先端の予測モデルのパフォーマンスを一貫して改善する。
論文 参考訳(メタデータ) (2024-10-11T09:52:26Z) - Few-Shot Class-Incremental Learning with Non-IID Decentralized Data [12.472285188772544]
スケーラブルで適応的なインテリジェントなシステムを開発するには、クラスインクリメンタルな学習が不可欠だ。
本稿では、分散機械学習パラダイムであるフェデレートされた数発のクラスインクリメンタルラーニングを紹介する。
本稿では,リプレイバッファデータを利用して既存の知識を維持し,新たな知識の獲得を促進する合成データ駆動フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:48:36Z) - MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data [10.217822818544475]
大規模言語モデル(LLM)を用いた合成(語彙)データを生成するフレームワークを提案する。
提案手法は, サンプルサイズが小さい一般的なシナリオにおいて, 合成データ生成の品質を著しく向上させる。
以上の結果から,本モデルは下流タスクにおける高品質な合成データを生成する上で,実際のデータのプライバシを維持しつつ,いくつかの最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-15T06:26:17Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。