論文の概要: GLOBEM Dataset: Multi-Year Datasets for Longitudinal Human Behavior
Modeling Generalization
- arxiv url: http://arxiv.org/abs/2211.02733v1
- Date: Fri, 4 Nov 2022 20:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 16:17:28.024163
- Title: GLOBEM Dataset: Multi-Year Datasets for Longitudinal Human Behavior
Modeling Generalization
- Title(参考訳): GLOBEMデータセット:時間的人間行動モデリング一般化のための多年データセット
- Authors: Xuhai Xu, Han Zhang, Yasaman Sefidgar, Yiyi Ren, Xin Liu, Woosuk Seo,
Jennifer Brown, Kevin Kuehn, Mike Merrill, Paula Nurius, Shwetak Patel, Tim
Althoff, Margaret E. Morris, Eve Riskin, Jennifer Mankoff, Anind K. Dey
- Abstract要約: モバイルおよびウェアラブルセンサから収集された700以上のユーザ年と497のユニークなユーザデータを含む,最初の多年間受動的センシングデータセットを提示する。
我々のデータセットは、さまざまなユーザや年数にわたる行動モデリングアルゴリズムの一般化性に関する、複数のデータセット間の評価をサポートすることができる。
- 参考スコア(独自算出の注目度): 23.504179265188743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has demonstrated the capability of behavior signals captured
by smartphones and wearables for longitudinal behavior modeling. However, there
is a lack of a comprehensive public dataset that serves as an open testbed for
fair comparison among algorithms. Moreover, prior studies mainly evaluate
algorithms using data from a single population within a short period, without
measuring the cross-dataset generalizability of these algorithms. We present
the first multi-year passive sensing datasets, containing over 700 user-years
and 497 unique users' data collected from mobile and wearable sensors, together
with a wide range of well-being metrics. Our datasets can support multiple
cross-dataset evaluations of behavior modeling algorithms' generalizability
across different users and years. As a starting point, we provide the benchmark
results of 18 algorithms on the task of depression detection. Our results
indicate that both prior depression detection algorithms and domain
generalization techniques show potential but need further research to achieve
adequate cross-dataset generalizability. We envision our multi-year datasets
can support the ML community in developing generalizable longitudinal behavior
modeling algorithms.
- Abstract(参考訳): 近年の研究では、スマートフォンやウェアラブルが捉えた行動信号が縦方向の行動モデリングに有効であることを実証している。
しかし、アルゴリズム間の公正な比較のためのオープンなテストベッドとして機能する包括的な公開データセットがない。
さらに、先行研究は、これらのアルゴリズムのクロスデータセットの一般化性を測定することなく、単一集団のデータを用いたアルゴリズムを短時間で評価する。
我々は,モバイルおよびウェアラブルセンサから収集した700以上のユーザ年数と497のユニークなユーザデータと,幅広い幸福度指標を含む,最初の複数年間の受動的センシングデータセットを提案する。
我々のデータセットは、さまざまなユーザと年数にわたる行動モデリングアルゴリズムの一般化可能性の複数のデータセット間評価をサポートすることができる。
起点として,抑うつ検出タスクに関する18のアルゴリズムのベンチマーク結果を提供する。
以上の結果から,事前の抑うつ検出アルゴリズムとドメイン一般化手法の両方が潜在性を示すが,適切なクロスデータセット一般化を達成するためにはさらなる研究が必要であることが示唆された。
複数の年次データセットは、一般化可能な長手行動モデリングアルゴリズムを開発する際にMLコミュニティをサポートすることができると期待する。
関連論文リスト
- Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - ARC: A Generalist Graph Anomaly Detector with In-Context Learning [62.202323209244]
ARCは汎用的なGADアプローチであり、一対一のGADモデルで様々なグラフデータセットの異常を検出することができる。
ARCはコンテキスト内学習を備えており、ターゲットデータセットからデータセット固有のパターンを直接抽出することができる。
各種領域からの複数のベンチマークデータセットに対する大規模な実験は、ARCの優れた異常検出性能、効率、一般化性を示す。
論文 参考訳(メタデータ) (2024-05-27T02:42:33Z) - Differentially Private Heavy Hitter Detection using Federated Analytics [33.69819799254375]
本研究では,プレフィックスツリーに基づくアルゴリズムの性能向上のための実用性について検討する。
我々のモデルは、各ユーザが複数のデータポイントを持っていると仮定し、その目標は、すべてのユーザのデータを集約的および局所的な差分プライバシーで可能な限り多くの最も頻繁なデータポイントを学習することである。
論文 参考訳(メタデータ) (2023-07-21T17:59:15Z) - A Dataset Fusion Algorithm for Generalised Anomaly Detection in
Homogeneous Periodic Time Series Datasets [0.0]
データセットフュージョン(Dataset Fusion)とは、複数の同種データセットからの周期的な信号を単一のデータセットに融合するアルゴリズムである。
提案手法は,平均F1スコア0.879で従来の訓練方法よりも有意に優れていた。
その結果、トレーニングデータの6.25%しか使用せず、計算能力の93.7%削減に換算すると、パフォーマンスは4.04%低下することがわかった。
論文 参考訳(メタデータ) (2023-05-14T16:24:09Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - A Unified Comparison of User Modeling Techniques for Predicting Data
Interaction and Detecting Exploration Bias [17.518601254380275]
我々は,4つのユーザスタディデータセットの多種多様なセットにおいて,その性能に基づいて8つのユーザモデリングアルゴリズムを比較し,ランク付けする。
本研究は,ユーザインタラクションの分析と可視化のためのオープンな課題と新たな方向性を強調した。
論文 参考訳(メタデータ) (2022-08-09T19:51:10Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Benchmarking Node Outlier Detection on Graphs [90.29966986023403]
グラフの外れ値検出は、多くのアプリケーションにおいて、新しいが重要な機械学習タスクである。
UNODと呼ばれるグラフに対して、最初の包括的教師なしノード外乱検出ベンチマークを示す。
論文 参考訳(メタデータ) (2022-06-21T01:46:38Z) - Time Series Data Mining Algorithms Towards Scalable and Real-Time
Behavior Monitoring [1.0878040851638]
センサから収集した弱いラベル付き時系列データにおいて,形状と特徴量の両方を用いて行動の分類を行うハイブリッドアルゴリズムを提案する。
我々のアルゴリズムは,形状と特徴の組み合わせに基づいて,実・雑音・複雑なデータセットを頑健に分類できることを実証する。
論文 参考訳(メタデータ) (2021-12-26T11:13:52Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Data Curves Clustering Using Common Patterns Detection [0.0]
分析とクラスタリングの時系列、あるいは一般にあらゆる種類の曲線は、いくつかの人間の活動にとって重要である。
共通パターン(CP)方法論を用いた新しい曲線クラスタリングについて紹介する。
論文 参考訳(メタデータ) (2020-01-05T18:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。