論文の概要: Large language model as user daily behavior data generator: balancing population diversity and individual personality
- arxiv url: http://arxiv.org/abs/2505.17615v1
- Date: Fri, 23 May 2025 08:22:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.925534
- Title: Large language model as user daily behavior data generator: balancing population diversity and individual personality
- Title(参考訳): 日々の行動データジェネレータとしての大規模言語モデル:人口多様性と個人的性格のバランス
- Authors: Haoxin Li, Jingtao Ding, Jiahui Gong, Yong Li,
- Abstract要約: 本稿では,大規模言語モデルを用いて高品質な合成行動データを生成するフレームワークであるBehavimentGenを紹介する。
プロファイルと実際のイベントに基づいてユーザの振る舞いをシミュレートすることで、BehavimentGenは行動予測モデルにおけるデータ拡張と置換をサポートする。
我々は,その性能を,強化,微調整,微調整などのシナリオで評価し,人間の移動性やスマートフォン利用予測の大幅な改善を実現した。
- 参考スコア(独自算出の注目度): 12.464365435176099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting human daily behavior is challenging due to the complexity of routine patterns and short-term fluctuations. While data-driven models have improved behavior prediction by leveraging empirical data from various platforms and devices, the reliance on sensitive, large-scale user data raises privacy concerns and limits data availability. Synthetic data generation has emerged as a promising solution, though existing methods are often limited to specific applications. In this work, we introduce BehaviorGen, a framework that uses large language models (LLMs) to generate high-quality synthetic behavior data. By simulating user behavior based on profiles and real events, BehaviorGen supports data augmentation and replacement in behavior prediction models. We evaluate its performance in scenarios such as pertaining augmentation, fine-tuning replacement, and fine-tuning augmentation, achieving significant improvements in human mobility and smartphone usage predictions, with gains of up to 18.9%. Our results demonstrate the potential of BehaviorGen to enhance user behavior modeling through flexible and privacy-preserving synthetic data generation.
- Abstract(参考訳): 日常的なパターンや短期的な変動が複雑になるため、人間の日常行動の予測は困難である。
データ駆動モデルでは,さまざまなプラットフォームやデバイスからの経験的データを活用することにより,行動予測が改善されている。
合成データ生成は有望なソリューションとして登場したが、既存のメソッドは特定のアプリケーションに限られることが多い。
本研究では,大規模言語モデル(LLM)を用いて高品質な合成行動データを生成するフレームワークであるBehavimentGenを紹介する。
プロファイルと実際のイベントに基づいてユーザの振る舞いをシミュレートすることで、BehavimentGenは行動予測モデルにおけるデータ拡張と置換をサポートする。
我々は,その性能を,強化,微調整,微調整などのシナリオで評価し,人間の移動性およびスマートフォン利用予測の大幅な改善を実現し,最大18.9%のゲインを得た。
この結果から, フレキシブルかつプライバシ保護型合成データ生成により, ユーザ行動モデリングが促進される可能性が示唆された。
関連論文リスト
- BehaveGPT: A Foundation Model for Large-scale User Behavior Modeling [14.342911841456663]
本研究では,大規模ユーザ行動予測に特化して設計された基礎モデルであるBehaveGPTを提案する。
BehaveGPTは膨大なユーザーの行動データセットに基づいてトレーニングされており、複雑な行動パターンを学習することができる。
提案手法では,ユーザ行動データに適したDROベースの事前学習パラダイムを導入し,モデルの一般化と転送性を向上させる。
論文 参考訳(メタデータ) (2025-05-23T08:43:46Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Uncertainty-aware Human Mobility Modeling and Anomaly Detection [24.22648449430148]
生のGPSデータを連続的静止点イベントとしてモデル化した人間の行動における異常検出を定式化する。
提案したモデルUSTADとアレータティック不確実性推定を併用する。
実験の結果,USTADは産業規模データのベースライン以上でAUCROCの異常検出を3%-15%改善することがわかった。
論文 参考訳(メタデータ) (2024-10-02T06:57:08Z) - Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Incorporating Heterogeneous User Behaviors and Social Influences for
Predictive Analysis [32.31161268928372]
我々は,行動予測に異質なユーザ行動と社会的影響を取り入れることを目指している。
本稿では,行動シーケンスのコンテキストを考慮したLong-Short Term Memory (LSTM)を提案する。
残差学習に基づくデコーダは、社会的行動表現に基づいて、複数の高次クロス機能を自動的に構築するように設計されている。
論文 参考訳(メタデータ) (2022-07-24T17:05:37Z) - Generating synthetic mobility data for a realistic population with RNNs
to improve utility and privacy [3.3918638314432936]
本稿では, ディープリカレントニューラルネットワーク(RNN)を用いた合成モビリティデータ生成システムを提案する。
本システムは, 個体群分布を入力として, 対応する合成個体群の移動トレースを生成する。
生成したモビリティデータは,個々のレベルでの実際のデータから変化しながら,実際のデータの特徴を保っていることを示す。
論文 参考訳(メタデータ) (2022-01-04T13:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。