論文の概要: Offline Policy Evaluation of Multi-Turn LLM Health Coaching with Real Users
- arxiv url: http://arxiv.org/abs/2510.17173v2
- Date: Tue, 21 Oct 2025 05:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.01875
- Title: Offline Policy Evaluation of Multi-Turn LLM Health Coaching with Real Users
- Title(参考訳): 実環境におけるマルチターンLDMヘルスコーチングのオフライン政策評価
- Authors: Melik Ozolcer, Sang Won Bae,
- Abstract要約: そこで本研究では,実ユーザを対象に,Web上にデプロイされたツール拡張型LDMヘルスコーチについて検討する。
7人のユーザ(280回)からなるパイロットテストにおいて、オフラインポリシ評価は、均一なヘビーツールポリシーがログの平均値を上げるが、特定のサブグループを傷つけることを示している。
隠れアーチタイプを備えた軽量シミュレータは、小さな初期情報ゲインボーナスを追加することで、特性の識別が確実に短縮され、ゴールの成功とパス@3が向上することを示している。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a web-deployed, tool-augmented LLM health coach with real users. In a pilot with seven users (280 rated turns), offline policy evaluation (OPE) over factorized decision heads (Tool/Style) shows that a uniform heavy-tool policy raises average value on logs but harms specific subgroups, most notably low-health-literacy/high-self-efficacy users. A lightweight simulator with hidden archetypes further shows that adding a small early information-gain bonus reliably shortens trait identification and improves goal success and pass@3. Together, these early findings indicate an evaluation-first path to personalization: freeze the generator, learn subgroup-aware decision heads on typed rewards (objective tool outcomes and satisfaction), and always report per-archetype metrics to surface subgroup harms that averages obscure.
- Abstract(参考訳): そこで本研究では,実ユーザを対象に,Web上にデプロイされたツール拡張型LDMヘルスコーチについて検討する。
7人のユーザ(280回)によるパイロットテスト(OPE)では、決定ヘッド(Tool/Style)に対するオフラインポリシー評価(OPE)は、均一なヘビーツールポリシーがログの平均値を上昇させるが、特定のサブグループ、特に低健康リテラシー/高自己効力性ユーザを害することを示している。
隠れアーチタイプを持つ軽量シミュレータは、小さな初期情報ゲインボーナスを追加することで、特性の識別が確実に短縮され、ゴールの成功とパス@3が向上することを示している。
これらの初期の知見は、人格化のための評価第一の道を示す: ジェネレータを凍結し、型付き報酬(客観的ツールの結果と満足度)のサブグループ対応決定ヘッドを学習し、常に、平均が不明瞭なサブグループ障害を表面的に報告する。
関連論文リスト
- Reinforcement Learning from User Feedback [28.335218244885706]
本稿では,大規模言語モデルとユーザの好みを整合させるフレームワークであるReinforcement Learning from User Feedback (RLUF)を紹介する。
報奨モデル P[Love] をトレーニングし, LLM 応答がラブ反応を受ける可能性を予測する。
P[Love]は肯定的なフィードバックの増加を予測し,将来のユーザ行動の信頼性の高いオフライン評価手段として機能することを示す。
論文 参考訳(メタデータ) (2025-05-20T22:14:44Z) - Can Large Language Models Understand Preferences in Personalized Recommendation? [32.2250928311146]
PerRecBenchを導入し、ユーザ評価バイアスとアイテムの品質から評価を分解する。
評価予測に長けているLCMベースのレコメンデーション手法では,ユーザの評価バイアスや項目品質を排除した場合,ユーザの好ましくない項目や好ましくない項目を識別できないことがわかった。
その結果、ポイントワイドランキングよりもペアワイズとリストワイズランキングの方が優れていること、PerRecBenchの従来の回帰指標との相関が低いこと、ユーザプロファイルの重要性、事前学習データ分布の役割が明らかになった。
論文 参考訳(メタデータ) (2025-01-23T05:24:18Z) - UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches [25.133460380551327]
大規模言語モデル(LLM)は、大量のユーザアクティビティデータからユーザ要約を生成する際、顕著な能力を示している。
これらの要約は、好みや興味などの重要なユーザー情報を取り込み、パーソナライズ・アプリケーションには有用である。
しかし, 新たな要約手法の開発は, ゼロ・トラストラベルの欠如, ユーザ・サマリー固有の主観性, 人的評価などによって妨げられている。
論文 参考訳(メタデータ) (2024-08-30T01:56:57Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z) - Personalizing Intervened Network for Long-tailed Sequential User
Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。
テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。
本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-19T02:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。