論文の概要: APRIL: Annotations for Policy evaluation with Reliable Inference from LLMs
- arxiv url: http://arxiv.org/abs/2511.17818v1
- Date: Fri, 21 Nov 2025 22:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.444354
- Title: APRIL: Annotations for Policy evaluation with Reliable Inference from LLMs
- Title(参考訳): APRIL: LLMからの信頼性推論による政策評価のためのアノテーション
- Authors: Aishwarya Mandyam, Kalyani Limaye, Barbara E. Engelhardt, Emily Alsentzer,
- Abstract要約: オフ・ポリティ・アセスメント(OPE)は、デプロイ前にコンテキスト的バンディットポリシーの価値を見積もる。
従来の研究では、データセットのカバレッジを高めるために専門家ラベルの反ファクトアノテーションを使用して検討されてきた。
我々は,医療領域におけるOPEの偽造アノテーションを生成するために,大規模言語モデル(LLM)を活用することを提案する。
- 参考スコア(独自算出の注目度): 1.4349869204948273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation (OPE) estimates the value of a contextual bandit policy prior to deployment. As such, OPE plays a critical role in ensuring safety in high-stakes domains such as healthcare. However, standard OPE approaches are limited by the size and coverage of the behavior dataset. While previous work has explored using expert-labeled counterfactual annotations to enhance dataset coverage, obtaining such annotations is expensive, limiting the scalability of prior approaches. We propose leveraging large language models (LLMs) to generate counterfactual annotations for OPE in medical domains. Our method uses domain knowledge to guide LLMs in predicting how key clinical features evolve under alternate treatments. These predicted features can then be transformed using known reward functions to create counterfactual annotations. We first evaluate the ability of several LLMs to predict clinical features across two patient subsets in MIMIC-IV, finding that state-of-the-art LLMs achieve comparable performance. Building on this capacity to predict clinical features, we generate LLM-based counterfactual annotations and incorporate them into an OPE estimator. Our empirical results analyze the benefits of counterfactual annotations under varying degrees of shift between the behavior and target policies. We find that in most cases, the LLM-based counterfactual annotations significantly improve OPE estimates up to a point. We provide an entropy-based metric to identify when additional annotations cease to be useful. Our results demonstrate that LLM-based counterfactual annotations offer a scalable approach for addressing coverage limitations in healthcare datasets, enabling safer deployment of decision-making policies in clinical settings.
- Abstract(参考訳): オフ・ポリティ・アセスメント(OPE)は、デプロイ前にコンテキスト的バンディットポリシーの価値を見積もる。
したがって、OPEは医療などの高リスク領域の安全性を確保する上で重要な役割を担っている。
しかし、標準的なOPEアプローチは、振る舞いデータセットのサイズとカバレッジによって制限される。
これまでの研究では、データセットのカバレッジを向上させるために専門家ラベルの反ファクトアノテーションを使用して検討されてきたが、そのようなアノテーションの取得にはコストがかかり、従来のアプローチのスケーラビリティが制限されていた。
我々は,医療領域におけるOPEの偽造アノテーションを生成するために,大規模言語モデル(LLM)を活用することを提案する。
本手法では,LLMの指導にドメイン知識を応用し,代替治療下での臨床的特徴の進化を予測した。
これらの予測機能は、既知の報酬関数を使用して変換して、偽造アノテーションを作成することができる。
われわれはまず,MIMIC-IVの2つの患者サブセットにまたがる臨床像の予測能力について検討した。
この能力を利用して臨床特徴を予測し,LSMに基づく偽物アノテーションを生成し,それをOPE推定器に組み込む。
実験結果から, 行動と対象方針のシフトの度合いが異なる反実的アノテーションの利点を分析した。
ほとんどの場合、LLMベースの偽物アノテーションはOPEの見積もりを最大1ポイント改善する。
追加アノテーションが有用でなくなるかどうかを識別するためのエントロピーベースのメトリクスを提供する。
以上の結果から,LSMベースの対物アノテーションは医療データセットのカバレッジ制限に対処するためのスケーラブルなアプローチであり,臨床環境における意思決定ポリシーの安全な展開を可能にすることが示唆された。
関連論文リスト
- Enhancing Rating Prediction with Off-the-Shelf LLMs Using In-Context User Reviews [16.394933051332657]
等級評価予測は、言語と数学的推論の両方を効果的に解く必要がある回帰タスクである。
本研究では,市販LCMの性能を評価予測に用い,異なるコンテキスト情報を提供する。
ユーザによるレビューでは,LCMのレーティング予測性能が大幅に向上していることがわかった。
論文 参考訳(メタデータ) (2025-10-01T03:04:20Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Dynamic Evaluation of Large Language Models by Meta Probing Agents [44.20074234421295]
大規模言語モデル(LLM)を評価するためのメタ・プロブリング・エージェント(MPA)を提案する。
MPAはDyVal 2の重要なコンポーネントであり、DyValcitepzhu2023dyvalを自然に拡張している。
MPAは、探索および判定エージェントを設計し、元の評価問題を心理測定理論に従って新しいものに自動的に変換する。
論文 参考訳(メタデータ) (2024-02-21T06:46:34Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges [18.56314471146199]
時間的制約を伴って患者に関連付けられた大量のメモは、実質的に不可能な証拠を手作業で特定する。
患者EHRにおける非構造的証拠を効率よく回収・要約するためのメカニズムとして, LLMを用いたゼロショット戦略を提案し, 評価した。
論文 参考訳(メタデータ) (2023-09-08T18:44:47Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。