論文の概要: Best Arm Identification with Possibly Biased Offline Data
- arxiv url: http://arxiv.org/abs/2505.23165v1
- Date: Thu, 29 May 2025 06:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.722421
- Title: Best Arm Identification with Possibly Biased Offline Data
- Title(参考訳): バイス可能なオフラインデータを用いたベストアーム識別
- Authors: Le Yang, Vincent Y. F. Tan, Wang Chi Cheung,
- Abstract要約: 固定された信頼度設定において、潜在的にバイアスのあるオフラインデータを用いた最適な腕識別問題について検討する。
補助バイアス補正を組み込んだLUCB-Hアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 56.965938201853625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the best arm identification (BAI) problem with potentially biased offline data in the fixed confidence setting, which commonly arises in real-world scenarios such as clinical trials. We prove an impossibility result for adaptive algorithms without prior knowledge of the bias bound between online and offline distributions. To address this, we propose the LUCB-H algorithm, which introduces adaptive confidence bounds by incorporating an auxiliary bias correction to balance offline and online data within the LUCB framework. Theoretical analysis shows that LUCB-H matches the sample complexity of standard LUCB when offline data is misleading and significantly outperforms it when offline data is helpful. We also derive an instance-dependent lower bound that matches the upper bound of LUCB-H in certain scenarios. Numerical experiments further demonstrate the robustness and adaptability of LUCB-H in effectively incorporating offline data.
- Abstract(参考訳): 臨床実験のような現実のシナリオで一般的に発生する、固定された信頼設定において、潜在的にバイアスのあるオフラインデータを用いたベストアーム識別(BAI)問題について検討する。
オンライン分布とオフライン分布の偏りを事前に知ることなく、適応アルゴリズムの不可能な結果を証明する。
そこで我々は,LUCBフレームワーク内のオフラインおよびオンラインデータのバランスをとるために,補助バイアス補正を組み込むことにより適応的信頼境界を導入するLUCB-Hアルゴリズムを提案する。
理論解析により、LUCB-Hは、オフラインデータが誤解を招く場合に標準LUCBのサンプル複雑さと一致し、オフラインデータが有用であるときに著しく優れることが示された。
また、あるシナリオにおいてLUCB-Hの上界と一致するインスタンス依存下界を導出する。
数値実験により、LUCB-Hがオフラインデータを効果的に組み込む際の堅牢性と適応性を示す。
関連論文リスト
- Hybrid Reinforcement Learning from Offline Observation Alone [19.14864618744221]
エージェントがオフラインデータとオンラインインタラクティブアクセスの両方にアクセス可能なハイブリッド強化学習環境について検討する。
リセットモデルを利用するアルゴリズムの性能を確実に一致させるトレースモデル設定における最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T13:34:05Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - The Role of Coverage in Online Reinforcement Learning [72.01066664756986]
優れたカバレッジを持つデータ分布が存在するだけで、サンプル効率のよいオンラインRLが実現可能であることを示す。
ベルマンランクやベルマン・エルダー次元を含むオンラインRLの既存の複雑さ測定は、カバービリティを最適に捉えることができない。
本稿では,新たな複雑性尺度である逐次外挿係数を提案する。
論文 参考訳(メタデータ) (2022-10-09T03:50:05Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。