論文の概要: LIBRA: Language Model Informed Bandit Recourse Algorithm for Personalized Treatment Planning
- arxiv url: http://arxiv.org/abs/2601.11905v1
- Date: Sat, 17 Jan 2026 04:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.366241
- Title: LIBRA: Language Model Informed Bandit Recourse Algorithm for Personalized Treatment Planning
- Title(参考訳): LIBRA:パーソナライズされた処理計画のための言語モデルインフォームドバンドリコースアルゴリズム
- Authors: Junyu Cao, Ruijiang Gao, Esmaeil Keyvanshokooh, Jianhao Ma,
- Abstract要約: 我々は,アルゴリズム・リコース,コンテキスト・バンディット,大規模言語モデル(LLM)をシームレスに統合する統合フレームワークを導入する。
LLMのドメイン知識とバンド学習の統計的厳密さを戦略的に組み合わせたLanguage Model-Informed Bandit Recourse Algorithmを提案する。
人工環境実験と実際の高血圧管理症例実験により、GLRBとLIBRAは後悔、治療の質、サンプル効率を改善することが確認された。
- 参考スコア(独自算出の注目度): 10.920095609027774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a unified framework that seamlessly integrates algorithmic recourse, contextual bandits, and large language models (LLMs) to support sequential decision-making in high-stakes settings such as personalized medicine. We first introduce the recourse bandit problem, where a decision-maker must select both a treatment action and a feasible, minimal modification to mutable patient features. To address this problem, we develop the Generalized Linear Recourse Bandit (GLRB) algorithm. Building on this foundation, we propose LIBRA, a Language Model-Informed Bandit Recourse Algorithm that strategically combines domain knowledge from LLMs with the statistical rigor of bandit learning. LIBRA offers three key guarantees: (i) a warm-start guarantee, showing that LIBRA significantly reduces initial regret when LLM recommendations are near-optimal; (ii) an LLM-effort guarantee, proving that the algorithm consults the LLM only $O(\log^2 T)$ times, where $T$ is the time horizon, ensuring long-term autonomy; and (iii) a robustness guarantee, showing that LIBRA never performs worse than a pure bandit algorithm even when the LLM is unreliable. We further establish matching lower bounds that characterize the fundamental difficulty of the recourse bandit problem and demonstrate the near-optimality of our algorithms. Experiments on synthetic environments and a real hypertension-management case study confirm that GLRB and LIBRA improve regret, treatment quality, and sample efficiency compared with standard contextual bandits and LLM-only benchmarks. Our results highlight the promise of recourse-aware, LLM-assisted bandit algorithms for trustworthy LLM-bandits collaboration in personalized high-stakes decision-making.
- Abstract(参考訳): パーソナライズド・メディカルなどのハイテイク・セッティングにおけるシーケンシャルな意思決定を支援するために,アルゴリズム・リコース,文脈的帯域幅,大規模言語モデル(LLM)をシームレスに統合する統合フレームワークを導入する。
まず、治療行動と患者の特徴の変化を最小限に抑えることの両方を意思決定者が選択しなければならないリコース・バンディット問題を紹介する。
この問題に対処するため,一般化線形リコース帯域(GLRB)アルゴリズムを開発した。
この基礎の上に構築されたLIBRA(Language Model-Informed Bandit Recourse Algorithm)を提案する。
LIBRAは3つの重要な保証を提供する。
i) LLM勧告がほぼ最適である場合,LIBRAが初期後悔を著しく低減することを示す温暖化開始保証
(ii) LLM-effort 保証は、アルゴリズムが LLM に対して$O(\log^2 T)$ times しか参照していないことを証明し、そこでは$T$ が時間軸であり、長期的な自律性を保証する。
三) LLM が信頼できない場合でも、LIBRA が純粋なバンディットアルゴリズムより悪い性能を示すことはないことを示す頑健性保証。
さらに、リコース・バンディット問題の根本的な難しさを特徴付ける下界のマッチングを確立し、アルゴリズムのほぼ最適性を実証する。
GLRBとLIBRAは, 標準的な文脈帯域やLDMのみのベンチマークと比較して, 後悔, 治療品質, サンプル効率を改善することが確認された。
この結果から,個人別意思決定におけるLLM-banditコラボレーションのための,レコースアウェアなLLM支援バンディットアルゴリズムの約束が浮き彫りになった。
関連論文リスト
- Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Large Language Model-Enhanced Multi-Armed Bandits [43.34246396804588]
大規模言語モデル(LLM)は、マルチアーム・バンディット(MAB)のようなシーケンシャルな意思決定タスクを解決するために採用されている。
古典的MABとLLMの強みを組み合わせた代替手法を提案する。
実世界のテキストデータセットを用いて設計したMABタスクと実験の両方を用いて経験的評価を行う。
論文 参考訳(メタデータ) (2025-02-03T07:19:05Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Beyond Numeric Rewards: In-Context Dueling Bandits with LLM Agents [25.825941077332182]
In-Context Reinforcement Learning(ICRL)は、基盤モデル時代の強化学習(RL)問題を解決するフロンティアパラダイムである。
本稿では,Large Language Models (LLMs) が,Dueling Bandits (DB) 問題の下で ICRL を実現するためにクロスドメインを一般化できるかどうかを検討する。
LEADは従来のDBアルゴリズムから受け継がれた理論的保証を持つことを示す。
論文 参考訳(メタデータ) (2024-07-02T02:18:14Z) - A Framework for Real-time Safeguarding the Text Generation of Large Language Model [12.683042228674694]
大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)タスクを持っているが、有害なコンテンツを生成するための適合性のために倫理的・社会的リスクを生じさせる。
LLMSafeGuardは,外部バリデータをデコードに統合し,非安全な出力を拒否し,有効な出力を許容する軽量リアルタイムフレームワークである。
論文 参考訳(メタデータ) (2024-04-29T18:40:01Z) - Locally Differentially Private (Contextual) Bandits Learning [55.63825598391525]
本論文では,局所的差分性(LDP)バンディット学習について検討する。
我々は,DP保証を用いて,文脈自由な帯域幅学習問題を解くことのできる,シンプルなブラックボックス削減フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T04:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。