論文の概要: Enhancing Adaptive Behavioral Interventions with LLM Inference from Participant-Described States
- arxiv url: http://arxiv.org/abs/2507.03871v1
- Date: Sat, 05 Jul 2025 02:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.915377
- Title: Enhancing Adaptive Behavioral Interventions with LLM Inference from Participant-Described States
- Title(参考訳): 参加者記述状態からのLLM推論による適応的行動介入の促進
- Authors: Karine Karine, Benjamin M. Marlin,
- Abstract要約: 我々は、潜在状態変数を条件としたテキストベースの状態記述を生成する、新しい身体活動介入シミュレーション環境を開発する。
提案手法は,オンライン政策学習手法の性能を大幅に向上させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 9.395236804312496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of reinforcement learning (RL) methods to support health behavior change via personalized and just-in-time adaptive interventions is of significant interest to health and behavioral science researchers focused on problems such as smoking cessation support and physical activity promotion. However, RL methods are often applied to these domains using a small collection of context variables to mitigate the significant data scarcity issues that arise from practical limitations on the design of adaptive intervention trials. In this paper, we explore an approach to significantly expanding the state space of an adaptive intervention without impacting data efficiency. The proposed approach enables intervention participants to provide natural language descriptions of aspects of their current state. It then leverages inference with pre-trained large language models (LLMs) to better align the policy of a base RL method with these state descriptions. To evaluate our method, we develop a novel physical activity intervention simulation environment that generates text-based state descriptions conditioned on latent state variables using an auxiliary LLM. We show that this approach has the potential to significantly improve the performance of online policy learning methods.
- Abstract(参考訳): パーソナライズおよびジャスト・イン・タイム適応的介入による健康行動変化を支援するための強化学習(RL)手法は、禁煙支援や身体活動促進といった問題に焦点を当てた健康・行動科学研究者にとって重要な関心事である。
しかし、RL法は、適応的介入試験の設計における実用的な制限から生じる重要なデータ不足の問題を軽減するために、コンテキスト変数の小さな集合を用いてこれらの領域に適用されることが多い。
本稿では,データ効率に影響を与えることなく,適応的介入の状態空間を大きく拡張するアプローチについて検討する。
提案手法により、介入参加者は、現在の状態の側面を自然言語で記述することができる。
次に、事前訓練された大規模言語モデル(LLM)による推論を利用して、ベースRLメソッドのポリシーをこれらの状態記述と整合させる。
提案手法を評価するため,補助LDMを用いて潜在状態変数に条件付きテキストベースの状態記述を生成する物理活動介入シミュレーション環境を開発した。
提案手法は,オンライン政策学習手法の性能を大幅に向上させる可能性が示唆された。
関連論文リスト
- Policy Learning with a Natural Language Action Space: A Causal Approach [24.096991077437146]
本稿では,自然言語行動空間における多段階意思決定のための新たな因果的枠組みを提案する。
本手法では,1つのモデルを用いて動的処理規則(DTR)を推定するためにQラーニングを用いる。
このアプローチの重要な技術的貢献は、最適化された埋め込みをコヒーレントな自然言語に変換するデコード戦略です。
論文 参考訳(メタデータ) (2025-02-24T17:26:07Z) - StepCountJITAI: simulation environment for RL with application to physical activity adaptive intervention [9.395236804312496]
本稿では,RL手法の研究を促進するために設計されたRL環境であるStepCountJITAIを紹介する。
本稿では,適応的行動介入のためのRL手法の研究を促進するために設計されたRL環境であるStepCountJITAIを紹介する。
論文 参考訳(メタデータ) (2024-11-01T03:31:39Z) - Estimating Causal Effects of Text Interventions Leveraging LLMs [7.2937547395453315]
CausalDANNは、大規模言語モデル(LLM)によって促進されるテキスト変換を用いて因果効果を推定する新しいアプローチである。
既存の手法とは異なり、本手法は任意のテキスト介入に対応し、ドメイン適応能力を持つテキストレベル分類器を用いて、ドメインシフトに対するロバストな効果推定を生成する。
この多様なテキスト介入を扱う柔軟性は、テキストデータの因果推定において重要な進歩であり、人間の振る舞いをよりよく理解し、社会システム内で効果的な介入を開発する機会を提供する。
論文 参考訳(メタデータ) (2024-10-28T19:19:35Z) - Assessing the Impact of Context Inference Error and Partial
Observability on RL Methods for Just-In-Time Adaptive Interventions [12.762365585427377]
ジャスト・イン・タイム・アダプティブ・インターベンション(Just-in-Time Adaptive Interventions, JITAI)は、行動科学コミュニティ内で開発されたパーソナライズされた健康介入のクラスである。
JITAIは、事前定義されたコンポーネントセットから介入オプションのシーケンスを反復的に選択することで、適切なタイプとサポート量を提供することを目指している。
本研究では,文脈推定誤差と部分観測可能性が効果的な政策学習能力に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-17T02:46:37Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。