論文の概要: Combining LLM decision and RL action selection to improve RL policy for adaptive interventions
- arxiv url: http://arxiv.org/abs/2501.06980v1
- Date: Mon, 13 Jan 2025 00:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:27:52.854425
- Title: Combining LLM decision and RL action selection to improve RL policy for adaptive interventions
- Title(参考訳): LLM決定とRL行動選択を組み合わせた適応的介入のためのRLポリシーの改善
- Authors: Karine Karine, Benjamin M. Marlin,
- Abstract要約: 我々は、RLポリシーをリアルタイムで更新するために、LLM(Large Language Models)の成功にインスパイアされています。
テキストベースのユーザの好みは、ユーザの好みを即時に組み込むために、オンザフライでのアクション選択に影響を与える。
提案手法は,RLポリシーを改善しつつ,テキストベースのユーザ嗜好を考慮し,適応的介入におけるパーソナライズを改善することができることを示す。
- 参考スコア(独自算出の注目度): 9.395236804312496
- License:
- Abstract: Reinforcement learning (RL) is increasingly being used in the healthcare domain, particularly for the development of personalized health adaptive interventions. Inspired by the success of Large Language Models (LLMs), we are interested in using LLMs to update the RL policy in real time, with the goal of accelerating personalization. We use the text-based user preference to influence the action selection on the fly, in order to immediately incorporate the user preference. We use the term "user preference" as a broad term to refer to a user personal preference, constraint, health status, or a statement expressing like or dislike, etc. Our novel approach is a hybrid method that combines the LLM response and the RL action selection to improve the RL policy. Given an LLM prompt that incorporates the user preference, the LLM acts as a filter in the typical RL action selection. We investigate different prompting strategies and action selection strategies. To evaluate our approach, we implement a simulation environment that generates the text-based user preferences and models the constraints that impact behavioral dynamics. We show that our approach is able to take into account the text-based user preferences, while improving the RL policy, thus improving personalization in adaptive intervention.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、医療分野、特にパーソナライズされた健康適応的介入の開発にますます利用されている。
LLM(Large Language Models)の成功に触発された私たちは、パーソナライゼーションの促進を目的として、LLMを使用してRLポリシーをリアルタイムで更新することに興味を持っています。
テキストベースのユーザの嗜好は、ユーザの選好を即時に組み込むために、オンザフライでのアクション選択に影響を与える。
ユーザの好み、制約、健康状態、あるいは好き嫌いを表す発言などを指すために、幅広い用語として「ユーザ嗜好」という用語を使用します。
我々の新しいアプローチは、LLM応答とRLアクション選択を組み合わせてRLポリシーを改善するハイブリッド手法である。
ユーザの好みを取り入れたLLMプロンプトが与えられた場合、LLMは典型的なRLアクション選択においてフィルタとして機能する。
異なるプロンプト戦略と行動選択戦略について検討する。
提案手法を評価するために,テキストベースのユーザ嗜好を生成するシミュレーション環境を実装し,行動力学に影響を与える制約をモデル化する。
提案手法は,RLポリシーを改善しつつ,テキストベースのユーザ嗜好を考慮し,適応的介入におけるパーソナライズを改善することができることを示す。
関連論文リスト
- Rule-Bottleneck Reinforcement Learning: Joint Explanation and Decision Optimization for Resource Allocation with Language Agents [26.7942726790676]
Rule-Bottleneck Reinforcement Learning (RBRL)は、意思決定と説明を共同で最適化する新しいフレームワークである。
実世界のシナリオにおける評価では、RBRLの深いRLとの競合性能とLLMの微調整よりも効率の向上が強調されている。
論文 参考訳(メタデータ) (2025-02-15T09:01:31Z) - Preference VLM: Leveraging VLMs for Scalable Preference-Based Reinforcement Learning [17.59802090014789]
視覚言語モデル(VLM)と選択的フィードバックを統合するフレームワークであるPrefVLMを紹介する。
提案手法はVLMを利用して初期選好ラベルを生成する。
メタワールド操作タスクの実験は、PrefVLMが最先端の手法に匹敵する成功率または優れた成功率を達成することを示した。
論文 参考訳(メタデータ) (2025-02-03T18:50:15Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。