論文の概要: Seasonal-adjustment Based Feature Selection Method for Large-scale
Search Engine Logs
- arxiv url: http://arxiv.org/abs/2008.09727v1
- Date: Sat, 22 Aug 2020 01:35:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 07:47:36.309837
- Title: Seasonal-adjustment Based Feature Selection Method for Large-scale
Search Engine Logs
- Title(参考訳): 大規模検索エンジンログの季節調整に基づく特徴選択手法
- Authors: Thien Q. Tran, Jun Sakuma
- Abstract要約: 検索エンジンのログは、感染症の発生を追跡し予測する大きな可能性を持っている。
検索エンジンのログを使って 発生の正確な 安定した予測を行うのは 難しい作業です
本稿では,この不安定な問題を克服するための特徴選択手法を提案する。
- 参考スコア(独自算出の注目度): 21.244813783249015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search engine logs have a great potential in tracking and predicting
outbreaks of infectious disease. More precisely, one can use the search volume
of some search terms to predict the infection rate of an infectious disease in
nearly real-time. However, conducting accurate and stable prediction of
outbreaks using search engine logs is a challenging task due to the following
two-way instability characteristics of the search logs. First, the search
volume of a search term may change irregularly in the short-term, for example,
due to environmental factors such as the amount of media or news. Second, the
search volume may also change in the long-term due to the demographic change of
the search engine. That is to say, if a model is trained with such search logs
with ignoring such characteristic, the resulting prediction would contain
serious mispredictions when these changes occur.
In this work, we proposed a novel feature selection method to overcome this
instability problem. In particular, we employ a seasonal-adjustment method that
decomposes each time series into three components: seasonal, trend and
irregular component and build prediction models for each component
individually. We also carefully design a feature selection method to select
proper search terms to predict each component. We conducted comprehensive
experiments on ten different kinds of infectious diseases. The experimental
results show that the proposed method outperforms all comparative methods in
prediction accuracy for seven of ten diseases, in both now-casting and
forecasting setting. Also, the proposed method is more successful in selecting
search terms that are semantically related to target diseases.
- Abstract(参考訳): 検索エンジンログは感染症の発生を追跡し予測する上で大きな可能性を秘めている。
より正確には、いくつかの検索用語の検索ボリュームを使用して、ほぼリアルタイムで感染症の感染率を予測することができる。
しかし,検索ログの2方向不安定性に起因して,検索エンジンログによるアウトブレイクの正確かつ安定した予測を行うことは困難な課題である。
まず、検索項の検索量は、例えば、メディアやニュースの量などの環境要因により、短期的に不規則に変化する可能性がある。
第二に、検索エンジンの人口動態の変化により、検索量も長期的に変化する可能性がある。
つまり、モデルがそのような特徴を無視してそのような検索ログで訓練された場合、その結果の予測は、これらの変更が発生した時に重大な誤予測を含むことになる。
本研究では,この不安定な問題を克服するための新しい特徴選択手法を提案する。
特に,各時系列を季節,傾向,不規則成分の3成分に分解し,各成分の予測モデルを構築する季節調整手法を採用する。
また,各コンポーネントを予測する適切な検索語を選択するために,特徴選択手法を慎重に設計する。
我々は10種類の感染症について総合的な実験を行った。
実験結果から, 提案手法は, 現況, 予報環境において, 10の疾患のうち7つの疾患の予測精度において, 比較手法よりも優れていた。
また,提案手法は,対象疾患に意味的に関連のある検索語を選択することに成功している。
関連論文リスト
- MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - A Parallel Novelty Search Metaheuristic Applied to a Wildfire Prediction
System [0.0]
森林火災は多因性環境現象である。
シミュレーションの結果は、いくつかの変数の値の不確かさのため、一般的に高い誤差を持つ。
そこで本研究では,対象関数を新たな解の尺度で置き換えるノベルティ探索パラダイムを提案する。
論文 参考訳(メタデータ) (2022-07-24T03:09:53Z) - Flexible Group Fairness Metrics for Survival Analysis [0.0]
グループフェアネスの指標を用いて、既存の生存率を使ってバイアスを測定する方法について検討する。
偏見の尺度は偏見をよく捉えられるが、校正や採点ルールの尺度では明瞭さが低い。
論文 参考訳(メタデータ) (2022-05-26T20:55:55Z) - Variance Minimization in the Wasserstein Space for Invariant Causal
Prediction [72.13445677280792]
そこで本研究では,ICPで行ったアプローチを,予測器数で線形にスケールする一連の非パラメトリックテストとして再検討する。
これらのテストはそれぞれ、最適輸送理論の道具から導かれる新しい損失関数の最小化に依存している。
我々は,本手法が同定可能な直接原因の集合を回復できるという軽微な仮定の下で証明し,他のベンチマーク因果探索アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2021-10-13T22:30:47Z) - Achieving Reliable Causal Inference with Data-Mined Variables: A Random
Forest Approach to the Measurement Error Problem [1.5749416770494704]
一般的な実証的戦略は、利用可能なデータから関心のある変数を'マイニング'する予測モデリング手法の適用を含む。
最近の研究は、機械学習モデルからの予測は必然的に不完全であるため、予測変数に基づく計量分析は測定誤差によるバイアスに悩まされる可能性が高いことを強調している。
ランダムフォレストと呼ばれるアンサンブル学習技術を用いて,これらのバイアスを軽減する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-19T21:48:23Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - Curse of Small Sample Size in Forecasting of the Active Cases in
COVID-19 Outbreak [0.0]
新型コロナウイルス(COVID-19)のパンデミックでは、感染者数や今後の流行を予想する試みが多数行われている。
しかし、信頼性の高い方法では、新型コロナウイルス(COVID-19)の根本的特徴の中期的・長期的進化を許容できる精度で予測することができない。
本稿では,この予測問題における機械学習モデルの故障について説明する。
論文 参考訳(メタデータ) (2020-11-06T23:13:34Z) - Predicting Parkinson's Disease with Multimodal Irregularly Collected
Longitudinal Smartphone Data [75.23250968928578]
パーキンソン病は神経疾患であり、高齢者に多い。
伝統的に病気を診断する方法は、一連の活動テストの品質に関する個人的主観的臨床評価に依存している。
そこで本研究では,スマートフォンが収集した生の行動データを用いて,パーキンソン病を予測するための時系列に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-25T01:50:15Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Overly Optimistic Prediction Results on Imbalanced Data: a Case Study of
Flaws and Benefits when Applying Over-sampling [13.463035357173045]
データを相互に排他的なトレーニングとテストセットに分割する前にオーバーサンプリングを適用する。
この結果が,2つの人工データセットを用いて偏りを生じさせ,この欠陥が同定された研究結果を再現することを示す。
論文 参考訳(メタデータ) (2020-01-15T12:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。