論文の概要: Can we Improve Prediction of Psychotherapy Outcomes Through Pretraining With Simulated Data?
- arxiv url: http://arxiv.org/abs/2601.06159v1
- Date: Tue, 06 Jan 2026 16:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.62516
- Title: Can we Improve Prediction of Psychotherapy Outcomes Through Pretraining With Simulated Data?
- Title(参考訳): シミュレーションデータによるプレトレーニングによる心理療法結果の予測を改善できるか?
- Authors: Niklas Jacobs, Manuel C. Voelkle, Norbert Kathmann, Kevin Hilbert,
- Abstract要約: パーソナライズされた医療では、機械学習アルゴリズムの人気が高まっている。
オープンデータと合成技術の利用がこの問題に対処するために提案されている。
本稿では,論文に掲載されている要約統計に基づいて,追加のシミュレーションデータを用いた代替手法を提案し,評価する。
我々は,本手法の予測性能を,実データのみに基づいて学習したランダム林と比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the context of personalized medicine, machine learning algorithms are growing in popularity. These algorithms require substantial information, which can be acquired effectively through the usage of previously gathered data. Open data and the utilization of synthetization techniques have been proposed to address this. In this paper, we propose and evaluate alternative approach that uses additional simulated data based on summary statistics published in the literature. The simulated data are used to pretrain random forests, which are afterwards fine-tuned on a real dataset. We compare the predictive performance of the new approach to random forests trained only on the real data. A Monte Carlo Cross Validation (MCCV) framework with 100 iterations was employed to investigate significance and stability of the results. Since a first study yielded inconclusive results, a second study with improved methodology (i.e., systematic information extraction and different prediction outcome) was conducted. In Study 1, some pretrained random forests descriptively outperformed the standard random forest. However, this improvement was not significant (t(99) = 0.89, p = 0.19). Contrary to expectations, in Study 2 the random forest trained only with the real data outperformed the pretrained random forests. We conclude with a discussion of challenges, such as the scarcity of informative publications, and recommendations for future research.
- Abstract(参考訳): パーソナライズされた医療の文脈では、機械学習アルゴリズムの人気が高まっている。
これらのアルゴリズムは、以前に収集されたデータを使用して効果的に取得できる、かなりの情報を必要とする。
オープンデータと合成技術の利用がこの問題に対処するために提案されている。
本稿では,文献に掲載されている要約統計に基づいて,追加のシミュレーションデータを用いた代替手法を提案し,評価する。
シミュレーションされたデータは、ランダムな森林を事前訓練するために使用され、その後、実際のデータセットで微調整される。
我々は,本手法の予測性能を,実データのみに基づいて学習したランダム林と比較した。
100イテレーションのMCCV(Monte Carlo Cross Validation)フレームワークを使用して,結果の意義と安定性を検討した。
第1報では決定的な結果が得られなかったため、改善された方法論(系統的情報抽出と異なる予測結果)を用いた第2報が実施された。
研究1では、事前訓練されたランダム林が標準ランダム林よりも格段に優れていた。
しかし、この改善は重要ではなかった(t(99) = 0.89, p = 0.19)。
予想とは対照的に、研究2では、実際のデータだけで訓練されたランダム林は、事前訓練されたランダム林よりも優れていた。
我々は,情報出版物の不足や今後の研究への提言など,課題の議論を締めくくっている。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。
この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。
本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:43:59Z) - Usage-Specific Survival Modeling Based on Operational Data and Neural Networks [0.3999851878220878]
提案した手法は、スナップショットと呼ばれる特定のタイミングで継続的に収集され、保存されるデータを使用してトレーニングされたニューラルネットワークベースの生存モデルに基づいている。
論文は、データがすべてのスナップショット時間が同じ特定のフォーマットにある場合、最大限のトレーニングを適用でき、望ましい結果が得られることを示した。
トレーニング中に必要となるサンプルの数を減らすため,トレーニング開始前にデータセットを再サンプリングする代わりに,トレーニング開始時にデータセットをランダムに再サンプリングする手法を提案する。
論文 参考訳(メタデータ) (2024-03-27T16:32:32Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Learning Optimal Prescriptive Trees from Observational Data [7.215903549622416]
混合整数最適化(MIO)技術を用いて最適規範木を学習する手法を提案する。
既存の文献とは対照的に、我々の手法はデータをランダム化する必要がなく、2)学習木に厳密な仮定を課さず、3)ドメイン固有の制約をモデル化する能力を持っている。
論文 参考訳(メタデータ) (2021-08-31T05:38:36Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z) - Model adaptation and unsupervised learning with non-stationary batch
data under smooth concept drift [8.068725688880772]
ほとんどの予測モデルは、トレーニングとテストデータは定常的なプロセスから生成されると仮定する。
我々は、データソースの非定常性に起因する段階的な概念の漂流のシナリオを考察する。
予測モデルの教師なし適応のための新しい反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。