論文の概要: Robust Offline Policy Learning with Observational Data from Multiple Sources
- arxiv url: http://arxiv.org/abs/2410.08537v1
- Date: Fri, 11 Oct 2024 05:16:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 23:24:44.923295
- Title: Robust Offline Policy Learning with Observational Data from Multiple Sources
- Title(参考訳): 複数の情報源からの観測データを用いたロバストオフライン政策学習
- Authors: Aldo Gael Carranza, Susan Athey,
- Abstract要約: そこで本研究では,ソース分布の一般混合下での一意に低い後悔を保証するために,ミニマックス後悔最適化手法を提案する。
我々は,この目的に合わせたポリシー学習アルゴリズムを開発し,2つの頑健なオフラインポリシー評価手法と,最小限の最適化のための非回帰学習アルゴリズムを組み合わせた。
- 参考スコア(独自算出の注目度): 4.686875726947135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of using observational bandit feedback data from multiple heterogeneous data sources to learn a personalized decision policy that robustly generalizes across diverse target settings. To achieve this, we propose a minimax regret optimization objective to ensure uniformly low regret under general mixtures of the source distributions. We develop a policy learning algorithm tailored to this objective, combining doubly robust offline policy evaluation techniques and no-regret learning algorithms for minimax optimization. Our regret analysis shows that this approach achieves the minimal worst-case mixture regret up to a moderated vanishing rate of the total data across all sources. Our analysis, extensions, and experimental results demonstrate the benefits of this approach for learning robust decision policies from multiple data sources.
- Abstract(参考訳): 複数の異種データソースからの観測帯域フィードバックデータを用いて、多様なターゲット設定を安定的に一般化するパーソナライズされた決定ポリシーを学習する。
そこで本研究では,ソース分布の一般混合条件下での一様に低い後悔度を確保するために,最小限の後悔度最適化手法を提案する。
我々は,この目的に合わせたポリシー学習アルゴリズムを開発し,2つの頑健なオフラインポリシー評価手法と,最小限の最適化のための非回帰学習アルゴリズムを組み合わせた。
我々の後悔分析は、この手法が全ソースにわたる全データの適度な消滅率まで、最小限の最悪の混合を達成していることを示している。
分析,拡張,実験結果は,複数のデータソースから堅牢な意思決定ポリシーを学習する上で,このアプローチの利点を示すものである。
関連論文リスト
- Enhancing Offline Reinforcement Learning with Curriculum Learning-Based Trajectory Valuation [6.4653739435880455]
深層強化学習(DRL)は、訓練データの可用性と品質に依存しており、しばしば特定の環境との広範な相互作用を必要とする。
データ収集が高価でリスクの高い現実のシナリオでは、オフライン強化学習(RL)は、ドメインの専門家が収集したデータを活用し、バッチ制約のある最適ポリシーを探索することで、ソリューションを提供する。
既存のオフラインRLメソッドは、外部ソースからの非マッチングデータによって引き起こされる課題に悩まされることが多い。
論文 参考訳(メタデータ) (2025-02-02T00:03:53Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Multiply Robust Federated Estimation of Targeted Average Treatment
Effects [0.0]
多地点データを用いて,対象個体群に対する有効な因果推論を導出する手法を提案する。
提案手法では,移動学習を組み込んでアンサンブル重みを推定し,ソースサイトからの情報を組み合わせる。
論文 参考訳(メタデータ) (2023-09-22T03:15:08Z) - Federated Offline Policy Learning [4.686875726947135]
複数の異種データソースにまたがる観測帯域フィードバックデータからパーソナライズされた意思決定ポリシーを学習する問題を考察する。
本稿では,全データソースに対するグローバルな後悔の概念と,任意のデータソースに対する局所的後悔の概念を区別し,有限サンプル上界を確立する新しい後悔分析を導入する。
本稿では,2つの堅牢なオフラインポリシ評価戦略で訓練されたローカルポリシの集約に基づいて,フェデレーションに適したポリシ学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:08:09Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Semi-Blind Source Separation with Learned Constraints [1.2891210250935146]
ブラインドソース分離 (BSS) アルゴリズムは、ハイパースペクトルデータ解析のための教師なしの手法である。
本稿では,予測された最小二乗アルゴリズムと学習に基づく正規化スキームを組み合わせた半教師付きソース分離手法について検討する。
これにより、物理的に解釈可能な解を提供する精度が向上し、革新的なBSSアルゴリズムが実現できることが示される。
論文 参考訳(メタデータ) (2022-09-27T17:58:23Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Reducing Conservativeness Oriented Offline Reinforcement Learning [29.895142928565228]
オフライン強化学習では、ポリシーはデータの固定コレクションで累積報酬を最大化する。
保守性指向強化学習を減らす方法を提案する。
提案手法は,提供されたデータセットの歪分布に対処し,期待値関数に近い値関数を導出することができる。
論文 参考訳(メタデータ) (2021-02-27T01:21:01Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。