論文の概要: Multi-Armed Bandits With Machine Learning-Generated Surrogate Rewards
- arxiv url: http://arxiv.org/abs/2506.16658v1
- Date: Fri, 20 Jun 2025 00:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.295833
- Title: Multi-Armed Bandits With Machine Learning-Generated Surrogate Rewards
- Title(参考訳): 機械学習によるサロゲートリワードによるマルチアーマッドバンド
- Authors: Wenlong Ji, Yihan Pan, Ruihao Zhu, Lihua Lei,
- Abstract要約: マルチアームバンディット(MAB)は、不確実性の下でのシーケンシャルな意思決定のための広く採用されているフレームワークである。
我々は,事前学習された機械学習(ML)モデルを用いて,サイド情報と履歴データを報酬に変換するMABの新しい設定を提案する。
この設定の顕著な特徴は、真の報酬データが通常オフラインフェーズでは利用できないため、サロゲート報酬が実質的なバイアスを示す可能性があることである。
- 参考スコア(独自算出の注目度): 4.12484724941528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-armed bandit (MAB) is a widely adopted framework for sequential decision-making under uncertainty. Traditional bandit algorithms rely solely on online data, which tends to be scarce as it must be gathered during the online phase when the arms are actively pulled. However, in many practical settings, rich auxiliary data, such as covariates of past users, is available prior to deploying any arms. We introduce a new setting for MAB where pre-trained machine learning (ML) models are applied to convert side information and historical data into \emph{surrogate rewards}. A prominent feature of this setting is that the surrogate rewards may exhibit substantial bias, as true reward data is typically unavailable in the offline phase, forcing ML predictions to heavily rely on extrapolation. To address the issue, we propose the Machine Learning-Assisted Upper Confidence Bound (MLA-UCB) algorithm, which can be applied to any reward prediction model and any form of auxiliary data. When the predicted and true rewards are jointly Gaussian, it provably improves the cumulative regret, provided that the correlation is non-zero -- even in cases where the mean surrogate reward completely misaligns with the true mean rewards. Notably, our method requires no prior knowledge of the covariance matrix between true and surrogate rewards. We compare MLA-UCB with the standard UCB on a range of numerical studies and show a sizable efficiency gain even when the size of the offline data and the correlation between predicted and true rewards are moderate.
- Abstract(参考訳): マルチアームバンディット(MAB)は、不確実性の下でのシーケンシャルな意思決定のための広く採用されているフレームワークである。
従来のバンディットアルゴリズムはオンラインデータのみに依存しており、腕をアクティブに引っ張る際にはオンライン段階で収集しなければならないため、少ない傾向にある。
しかし、多くの実践的な環境では、過去のユーザの共変量のような豊富な補助データが、武器を配備する前に利用可能である。
我々は,事前学習機械学習(ML)モデルを応用して,サイド情報や履歴データを「emph{surrogate rewards}」に変換する,MABのための新しい設定を提案する。
この設定の顕著な特徴は、真の報酬データが通常オフラインフェーズでは利用できないため、サロゲート報酬は実質的なバイアスを示す可能性があることであり、ML予測は外挿に強く依存せざるを得ない。
この問題に対処するため,機械学習支援上信頼境界(MLA-UCB)アルゴリズムを提案する。
予測された報酬と真の報酬が共同でガウス的であるとき、相関がゼロではないことを仮定して、累積的後悔を確実に改善する。
特に、本手法は真と代理報酬の間の共分散行列に関する事前の知識を必要としない。
我々は,MLA-UCB と標準 UCB を比較し,オフラインデータのサイズと予測値と真の報酬値の相関が適度である場合でも,大きな効率向上を示す。
関連論文リスト
- MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Active RLHF via Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。
本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
論文 参考訳(メタデータ) (2025-01-31T03:55:10Z) - Conformal Validity Guarantees Exist for Any Data Distribution (and How to Find Them) [14.396431159723297]
理論上,共形予測はテキスト共同データ分布に拡張可能であることを示す。
最も一般的なケースは計算に実用的でないが、具体的には特定の共形アルゴリズムを導出するための手順を概説する。
論文 参考訳(メタデータ) (2024-05-10T17:40:24Z) - Implicitly normalized forecaster with clipping for linear and non-linear
heavy-tailed multi-armed bandits [85.27420062094086]
Implicitly Normalized Forecaster (INF) は、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。
重み付き設定のMAB問題に対するクリッピング(INFclip)を用いたINFの新バージョン"Implicitly Normalized Forecaster"を提案する。
INFclipは線形重み付きMAB問題に対して最適であり、非線形問題に対して有効であることを示す。
論文 参考訳(メタデータ) (2023-05-11T12:00:43Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Exploring Bayesian Surprise to Prevent Overfitting and to Predict Model
Performance in Non-Intrusive Load Monitoring [25.32973996508579]
非侵入負荷モニタリング(Non-Intrusive Load Monitoring, NILM)は、集積信号のみに基づくシステムにおける構成的電気負荷の分離に焦点を当てた研究分野である。
予測分布(予測的サプライズ)と遷移確率(遷移的サプライズ)の間のサプライズ度を定量化する。
この研究は、データセットサイズに関するモデルパフォーマンスのリターンを減少させるポイントが存在するという明確な証拠を提供する。
論文 参考訳(メタデータ) (2020-09-16T15:39:08Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。