論文の概要: Offline RL for Adaptive Policy Retrieval in Prior Authorization
- arxiv url: http://arxiv.org/abs/2604.05125v1
- Date: Mon, 06 Apr 2026 19:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.465443
- Title: Offline RL for Adaptive Policy Retrieval in Prior Authorization
- Title(参考訳): 事前認可における適応的政策検索のためのオフラインRL
- Authors: Ruslan Sharifullin, Maxim Gorshkov, Hannah Clay,
- Abstract要約: 保守的なQ-Learning(CQL)、Implicit Q-Learning(IQL)、Direct Preference Optimization(DPO)を使用してポリシーをトレーニングする。
CQLは、徹底的な検索を通じて、92%の判定精度(最高の固定価格のK$ベースラインよりも30ポイント以上)を達成する。
IQLは、検索ステップを44%削減し、すべてのポリシで唯一の肯定的なリターンを達成することで、最高のベースライン精度にマッチする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior authorization (PA) requires interpretation of complex and fragmented coverage policies, yet existing retrieval-augmented systems rely on static top-$K$ strategies with fixed numbers of retrieved sections. Such fixed retrieval can be inefficient and gather irrelevant or insufficient information. We model policy retrieval for PA as a sequential decision-making problem, formulating adaptive retrieval as a Markov Decision Process (MDP). In our system, an agent iteratively selects policy chunks from a top-$K$ candidate set or chooses to stop and issue a decision. The reward balances decision correctness against retrieval cost, capturing the trade-off between accuracy and efficiency. We train policies using Conservative Q-Learning (CQL), Implicit Q-Learning (IQL), and Direct Preference Optimization (DPO) in an offline RL setting on logged trajectories generated from baseline retrieval strategies over synthetic PA requests derived from publicly available CMS coverage data. On a corpus of 186 policy chunks spanning 10 CMS procedures, CQL achieves 92% decision accuracy (+30 percentage points over the best fixed-$K$ baseline) via exhaustive retrieval, while IQL matches the best baseline accuracy using 44% fewer retrieval steps and achieves the only positive episodic return among all policies. Transition-level DPO matches CQL's 92% accuracy while using 47% fewer retrieval steps (10.6 vs. 20.0), occupying a "selective-accurate" region on the Pareto frontier that dominates both CQL and BC. A behavioral cloning baseline matches CQL, confirming that advantage-weighted or preference-based policy extraction is needed to learn selective retrieval. Lambda ablation over step costs $λ\in \{0.05, 0.1, 0.2\}$ reveals a clear accuracy-efficiency inflection: only at $λ= 0.2$ does CQL transition from exhaustive to selective retrieval.
- Abstract(参考訳): 事前承認 (PA) には、複雑かつ断片化されたカバレッジポリシーの解釈が必要であるが、既存の検索拡張システムは、検索されたセクションの固定数の静的トップ$K$戦略に依存している。
このような固定された検索は非効率であり、無関係または不十分な情報を収集することができる。
我々は,適応的検索をマルコフ決定プロセス(MDP)として定式化し,PAのポリシー検索を逐次決定問題としてモデル化する。
本システムでは、エージェントが最上位のK$候補セットからポリシーチャンクを反復的に選択するか、あるいは停止して決定を発行するかを選択する。
報酬は、検索コストに対する決定の正しさをバランスさせ、精度と効率のトレードオフを捕捉する。
我々は、公開可能なCMSカバレッジデータから得られる合成PA要求に対して、ベースライン検索戦略から生成されたログ付きトラジェクトリに基づいて、オフラインのRL設定で、保守的Qラーニング(CQL)、Implicit Q-Learning(IQL)、ダイレクトプライオリティ最適化(DPO)を使用してポリシーを訓練する。
10のCMSプロシージャにまたがる186のポリシーチャンクのコーパスでは、CQLは抜本的な検索によって92%の判定精度(最高の固定値のK$ベースラインよりも30ポイント以上)を達成する一方、IQLは44%少ない検索ステップを使用して最高のベースライン精度と一致し、すべてのポリシーの中で唯一の肯定的なリターンを達成する。
トランジションレベルのDPOは、CQLの92%の精度と一致し、47%の検索ステップ(10.6対20.0)を使用し、CQLとBCの両方を支配するパレートフロンティアの「選択精度」領域を占有する。
行動クローンベースラインはCQLと一致し、選択的な検索を学習するために、有利な重み付けまたは優先ベースのポリシー抽出が必要であることを確認する。
Lambda ablation over step cost $λ\in \{0.05, 0.1, 0.2\}$ reveals a clear accuracy-efficiency inflection: at $λ= 0.2$ do CQL transition from exhaustive to selective search。
関連論文リスト
- Efficient Context Selection for Long-Context QA: No Tuning, No Iteration, Just Adaptive-$k$ [13.173467492641485]
本稿では、クエリと候補パスの類似度スコアに基づいて、経路数を適応的に選択する、単純で効果的なシングルパス手法であるAdaptive-$k$を提案する。
モデルファインチューニング、余分なLCM推論、あるいは既存のレトリバー読み取りパイプラインの変更は不要である。
5つのLCLMと2つの埋め込みモデルで精度を向上し、動的にコンテキストサイズを調整することでより効率的で正確なQAが得られることを強調した。
論文 参考訳(メタデータ) (2025-06-10T06:11:01Z) - AlignIQL: Policy Alignment in Implicit Q-Learning through Constrained Optimization [17.795383012026118]
暗黙のQ-ラーニングはオフラインRLの強力なベースラインとして機能する。
我々は,この問題を最適化問題として定式化することで,暗黙的な政策決定問題(IPF)を解決する方法を紹介した。
IQLやIDQLと比較して、当社のメソッドはIQLの単純さを維持し、暗黙のポリシー決定問題を解決する。
論文 参考訳(メタデータ) (2024-05-28T14:01:03Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies [72.4573167739712]
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
論文 参考訳(メタデータ) (2023-04-20T18:04:09Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - SEAM: Searching Transferable Mixed-Precision Quantization Policy through
Large Margin Regularization [50.04951511146338]
混合精度量子化(MPQ)は各層に対して最適なビット幅割り当てを求めるのに時間を要する。
本稿では,小規模なプロキシデータセットを用いて効率的なMPQポリシーを効率的に検索する手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T05:47:45Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。