論文の概要: Can we use LLMs to bootstrap reinforcement learning? -- A case study in digital health behavior change
- arxiv url: http://arxiv.org/abs/2511.17630v1
- Date: Wed, 19 Nov 2025 02:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.309488
- Title: Can we use LLMs to bootstrap reinforcement learning? -- A case study in digital health behavior change
- Title(参考訳): LLMを使って強化学習をブートストラップできるか -- デジタル健康行動変化のケーススタディ
- Authors: Nele Albers, Esra Cemre Su de Groot, Loes Keijsers, Manon H. Hillegers, Emiel Krahmer,
- Abstract要約: 本研究では,大規模言語モデル (LLM) を用いてユーザインタラクションを生成し,強化学習モデルの訓練に有用な情報を提供することを示す。
4つの大規模行動変化研究から得られた実際のユーザデータを比較として,LLM生成サンプルは実データがない場合に有用であることを示す。
- 参考スコア(独自算出の注目度): 2.153848605465955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalizing digital applications for health behavior change is a promising route to making them more engaging and effective. This especially holds for approaches that adapt to users and their specific states (e.g., motivation, knowledge, wants) over time. However, developing such approaches requires making many design choices, whose effectiveness is difficult to predict from literature and costly to evaluate in practice. In this work, we explore whether large language models (LLMs) can be used out-of-the-box to generate samples of user interactions that provide useful information for training reinforcement learning models for digital behavior change settings. Using real user data from four large behavior change studies as comparison, we show that LLM-generated samples can be useful in the absence of real data. Comparisons to the samples provided by human raters further show that LLM-generated samples reach the performance of human raters. Additional analyses of different prompting strategies including shorter and longer prompt variants, chain-of-thought prompting, and few-shot prompting show that the relative effectiveness of different strategies depends on both the study and the LLM with also relatively large differences between prompt paraphrases alone. We provide recommendations for how LLM-generated samples can be useful in practice.
- Abstract(参考訳): 健康行動変化のためのデジタルアプリケーションをパーソナライズすることは、より魅力的で効果的にするための有望な方法である。
これは、ユーザーとその特定の状態(例えば、モチベーション、知識、欲求)に時間をかけて適応するアプローチに特に当てはまる。
しかし、そのような手法の開発には多くの設計上の選択が必要であり、その効果は文献から予測することは困難であり、実際評価にはコストがかかる。
本研究では,大規模言語モデル(LLM)を用いて,デジタル行動変化設定のための強化学習モデルのトレーニングに有用な情報を提供するユーザインタラクションのサンプルを生成する方法について検討する。
4つの大規模行動変化研究から得られた実際のユーザデータを比較として,LLM生成サンプルは実データがない場合に有用であることを示す。
ヒトのラッカーが提供したサンプルと比較すると、LDM生成サンプルがヒトのラッカーの性能に達することが示される。
ショート・アンド・ロング・プロンプト変種、チェーン・オブ・ワン・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプト・プロンプトの相対的有効性は、プロンプト・プロンプト・プロンプトとLLMの両方に依存している。
我々は,LLM生成サンプルが実際にどのように有用であるかを推奨する。
関連論文リスト
- Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - Improving Preference Extraction In LLMs By Identifying Latent Knowledge Through Classifying Probes [20.20764453136706]
大規模言語モデル(LLM)は、しばしばテキストを評価するために自動判断器として使用される。
本稿では,2つのプロンプト間の差異を利用して学習した線形分類プローブを用いて,潜在知識にアクセスし,より正確な選好を抽出する手法を提案する。
論文 参考訳(メタデータ) (2025-03-22T12:35:25Z) - AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。
これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。
AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
本稿では,大規模言語モデルによる構造化された臨床データ処理を実現するための知識誘導型インコンテキスト学習フレームワークを提案する。
このアプローチでは、ドメイン固有の機能グループ化、慎重にバランスのとれた数ショットの例、タスク固有のプロンプト戦略を統合する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。