論文の概要: Unified Precision-Guaranteed Stopping Rules for Contextual Learning
- arxiv url: http://arxiv.org/abs/2604.07913v1
- Date: Thu, 09 Apr 2026 07:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.767766
- Title: Unified Precision-Guaranteed Stopping Rules for Contextual Learning
- Title(参考訳): 文脈学習のための統一的精度保証型停止規則
- Authors: Mingrui Ding, Qiuhong Zhao, Siyang Gao, Jing Dong,
- Abstract要約: 文脈学習は、個人の特徴をデータ収集を通じて行動にマッピングする決定ポリシーを学習しようとする。
本研究は,文脈的基準と政策価値基準の総合的基準の2つの精度基準の下で検討する。
我々は、未知のサンプリング分散を伴う文脈学習のための統一的な停止規則を、非構造化と構造化の両方の線形設定で開発する。
- 参考スコア(独自算出の注目度): 8.604741134620559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual learning seeks to learn a decision policy that maps an individual's characteristics to an action through data collection. In operations management, such data may come from various sources, and a central question is when data collection can stop while still guaranteeing that the learned policy is sufficiently accurate. We study this question under two precision criteria: a context-wise criterion and an aggregate policy-value criterion. We develop unified stopping rules for contextual learning with unknown sampling variances in both unstructured and structured linear settings. Our approach is based on generalized likelihood ratio (GLR) statistics for pairwise action comparisons. To calibrate the corresponding sequential boundaries, we derive new time-uniform deviation inequalities that directly control the self-normalized GLR evidence and thus avoid the conservativeness caused by decoupling mean and variance uncertainty. Under the Gaussian sampling model, we establish finite-sample precision guarantees for both criteria. Numerical experiments on synthetic instances and two case studies demonstrate that the proposed stopping rules achieve the target precision with substantially fewer samples than benchmark methods. The proposed framework provides a practical way to determine when enough information has been collected in personalized decision problems. It applies across multiple data-collection environments, including historical datasets, simulation models, and real systems, enabling practitioners to reduce unnecessary sampling while maintaining a desired level of decision quality.
- Abstract(参考訳): 文脈学習は、個人の特徴をデータ収集を通じて行動にマッピングする決定ポリシーを学習しようとする。
運用管理においては、このようなデータはさまざまなソースから取得され、学習されたポリシーが十分に正確であることを保証しながら、データ収集がいつ停止するかが中心的な疑問である。
本研究は,文脈的基準と政策価値基準の総合的基準の2つの精度基準の下で研究する。
我々は、未知のサンプリング分散を伴う文脈学習のための統一的な停止規則を、非構造化と構造化の両方の線形設定で開発する。
提案手法は, 対作用比較のための一般化可能性比(GLR)統計に基づく。
対応する逐次境界をキャリブレーションするために, 自己正規化GLRエビデンスを直接制御し, 平均と不確かさの疎結合に起因する保守性を回避する, 新たな時間均一偏差不等式を導出する。
ガウスサンプリングモデルでは、両方の基準に対して有限サンプル精度を保証する。
合成事例に関する数値実験と2つのケーススタディにより,提案した停止規則が,ベンチマーク法よりもかなり少ないサンプルで目標精度を達成することを示した。
提案フレームワークは、パーソナライズされた決定問題において、十分な情報が収集されたかどうかを判断する実用的な方法を提供する。
これは、過去のデータセット、シミュレーションモデル、実際のシステムを含む複数のデータ収集環境に適用され、実践者が望ましい意思決定品質を維持しながら不要なサンプリングを減らすことができる。
関連論文リスト
- Adaptive Off-Policy Inference for M-Estimators Under Model Misspecification [32.7750904494144]
本稿では,適応的に収集した帯域幅データを用いたM推定器の有効推定法を提案する。
この手法の主な要素は、適応データ収集によって誘導される分散を安定化するために、フレキシブルな機械学習アプローチを使用することである。
論文 参考訳(メタデータ) (2025-09-17T17:51:40Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Adaptive Conformal Inference by Particle Filtering under Hidden Markov Models [8.505262415500168]
本稿では,この問題に対処するための粒子フィルタリング手法を活用する適応型共形推論フレームワークを提案する。
観測不能な隠れ状態に直接焦点をあてるのではなく、隠れ状態の実際の後部分布の近似として重み付き粒子を革新的に利用する。
論文 参考訳(メタデータ) (2024-11-03T13:15:32Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - Sequential Predictive Two-Sample and Independence Testing [114.4130718687858]
逐次的非パラメトリック2サンプルテストと独立テストの問題点について検討する。
私たちは賭けによる(非パラメトリックな)テストの原則に基づいています。
論文 参考訳(メタデータ) (2023-04-29T01:30:33Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。