論文の概要: Synthetic Data Generation for Screen Time and App Usage
- arxiv url: http://arxiv.org/abs/2509.13892v1
- Date: Wed, 17 Sep 2025 10:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.823865
- Title: Synthetic Data Generation for Screen Time and App Usage
- Title(参考訳): スクリーンタイムとアプリ利用のための合成データ生成
- Authors: Gustavo Kruger, Nikhil Sachdeva, Michael Sobolev,
- Abstract要約: Open AIのChatGPTのような大規模言語モデル(LLM)は、合成スマートフォン使用データ生成の新しいアプローチを示す。
本稿では,4つの迅速な戦略が生成したスマートフォン利用データの品質に与える影響について事例研究を行った。
- 参考スコア(独自算出の注目度): 0.19116784879310023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smartphone usage data can provide valuable insights for understanding interaction with technology and human behavior. However, collecting large-scale, in-the-wild smartphone usage logs is challenging due to high costs, privacy concerns, under representative user samples and biases like non-response that can skew results. These challenges call for exploring alternative approaches to obtain smartphone usage datasets. In this context, large language models (LLMs) such as Open AI's ChatGPT present a novel approach for synthetic smartphone usage data generation, addressing limitations of real-world data collection. We describe a case study on how four prompt strategies influenced the quality of generated smartphone usage data. We contribute with insights on prompt design and measures of data quality, reporting a prompting strategy comparison combining two factors, prompt level of detail (describing a user persona, describing the expected results characteristics) and seed data inclusion (with versus without an initial real usage example). Our findings suggest that using LLMs to generate structured and behaviorally plausible smartphone use datasets is feasible for some use cases, especially when using detailed prompts. Challenges remain in capturing diverse nuances of human behavioral patterns in a single synthetic dataset, and evaluating tradeoffs between data fidelity and diversity, suggesting the need for use-case-specific evaluation metrics and future research with more diverse seed data and different LLM models.
- Abstract(参考訳): スマートフォンの利用データは、技術と人間の行動との相互作用を理解するための貴重な洞察を提供する。
しかし、高コスト、プライバシー上の懸念、代表的なユーザーサンプル、そして結果を歪ませる非レスポンスのようなバイアスなどにより、大規模なスマートフォン使用ログの収集は困難である。
これらの課題は、スマートフォンの利用データセットを得るための代替アプローチを模索することである。
この文脈において、Open AIのChatGPTのような大規模言語モデル(LLM)は、実世界のデータ収集の限界に対処する、合成スマートフォンの利用データ生成の新しいアプローチを示す。
本稿では,4つの迅速な戦略が生成したスマートフォン利用データの品質に与える影響について事例研究を行った。
我々は,データ品質の迅速な設計と測定に関する知見を報告し,2つの要因の組み合わせ,詳細レベル(ユーザペルソナの説明,期待する結果の特徴の説明)とシードデータインクルージョン(実際の実使用例を使わずに)の即時比較を行った。
以上の結果から,LLMを用いて構造的かつ行動学的に妥当なスマートフォン利用データセットを生成することは,いくつかのユースケース,特に詳細なプロンプトを使用する場合に実現可能であることが示唆された。
1つの合成データセットにおいて、人間の行動パターンの多様なニュアンスを捉え、データの忠実度と多様性のトレードオフを評価し、ユースケース固有の評価指標と、より多様なシードデータと異なるLLMモデルによる将来の研究の必要性を示唆している。
関連論文リスト
- Using Imperfect Synthetic Data in Downstream Inference Tasks [50.40949503799331]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を改善することができる。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Fréchet Power-Scenario Distance: A Metric for Evaluating Generative AI Models across Multiple Time-Scales in Smart Grids [7.62293199469863]
このような合成データを利用する上で重要な課題は、このような生成モデルから生成されたデータ品質を評価する方法である。
伝統的なユークリッド距離に基づく測度は、2つのサンプル間のペアワイズ関係のみを反映している。
学習した特徴空間内の2つのデータセット間で推定されるFr'echet Distanceに基づく新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2025-05-12T21:32:23Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - MAPLE: Mobile App Prediction Leveraging Large Language Model Embeddings [9.03541182474246]
本研究では,大規模言語モデル埋め込み(MAPLE)を活用したモバイルアプリケーション予測モデルを提案する。
MAPLEは、LLM(Large Language Models)を採用し、これらの課題を克服するためにアプリの類似性をインストールしている。
2つの実世界のデータセットのテストでは、MAPLEは標準およびコールドスタートシナリオの両方で、現代のモデルを上回っている。
論文 参考訳(メタデータ) (2023-09-15T13:15:54Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。