論文の概要: Thompson Sampling for Multi-Objective Linear Contextual Bandit
- arxiv url: http://arxiv.org/abs/2512.00930v1
- Date: Sun, 30 Nov 2025 15:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.504303
- Title: Thompson Sampling for Multi-Objective Linear Contextual Bandit
- Title(参考訳): 多目的線形帯域に対するトンプソンサンプリング
- Authors: Somangchan Park, Heesang Ann, Min-hwan Oh,
- Abstract要約: 本稿では,複数の競合する対象を同時に最適化しなければならない多目的線形文脈帯域問題について検討する。
本稿では,テキストファーストのトンプソンサンプリングアルゴリズムである textttMOL-TS を提案する。
提案手法の利点を実証し, 後悔の最小化と多目的性能の向上を実証した。
- 参考スコア(独自算出の注目度): 29.777578580338584
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the multi-objective linear contextual bandit problem, where multiple possible conflicting objectives must be optimized simultaneously. We propose \texttt{MOL-TS}, the \textit{first} Thompson Sampling algorithm with Pareto regret guarantees for this problem. Unlike standard approaches that compute an empirical Pareto front each round, \texttt{MOL-TS} samples parameters across objectives and efficiently selects an arm from a novel \emph{effective Pareto front}, which accounts for repeated selections over time. Our analysis shows that \texttt{MOL-TS} achieves a worst-case Pareto regret bound of $\widetilde{O}(d^{3/2}\sqrt{T})$, where $d$ is the dimension of the feature vectors, $T$ is the total number of rounds, matching the best known order for randomized linear bandit algorithms for single objective. Empirical results confirm the benefits of our proposed approach, demonstrating improved regret minimization and strong multi-objective performance.
- Abstract(参考訳): 本稿では,複数の競合する対象を同時に最適化する必要がある多目的線形文脈帯域問題について検討する。
そこで本稿では,Pareto がこの問題に対する保証を後悔した \texttt{MOL-TS} である Thompson Smpling アルゴリズムを提案する。
経験的パレートを各ラウンドで計算する標準的なアプローチとは異なり、 \texttt{MOL-TS} は目的物からパラメータを抽出し、時間の経過とともに繰り返し選択を行う新しい \emph{ Effective Pareto front} から腕を効率的に選択する。
解析の結果,<texttt{MOL-TS} は$\widetilde{O}(d^{3/2}\sqrt{T})$,$d$ は特徴ベクトルの次元であり,$T$ はラウンドの総数である。
提案手法の利点を実証し, 後悔の最小化と多目的性能の向上を実証した。
関連論文リスト
- Variance-Aware Feel-Good Thompson Sampling for Contextual Bandits [54.220839560203096]
FGTSVA, 変分対応型トンプソンサンプリングアルゴリズムを提案する。
新しいデカップリング係数を$mathrmdc$で表すと、FGTS-VAは$tildeO(sqrtmathrmdccdotlog|mathcalF|$)を後悔する。
文脈線形帯域の設定において、FGTSVAの後悔境界は UCB ベースと一致する
論文 参考訳(メタデータ) (2025-11-03T23:25:41Z) - Provable Anytime Ensemble Sampling Algorithms in Nonlinear Contextual Bandits [10.131895986034314]
一般化線形帯域に対する一般化線形アンサンブルサンプリング(textttGLM-ES)とニューラルエンサンブルサンプリング(textttNeural-ES)である。
textttGLM-ESの$mathcalO(d3/2 sqrtT + d9/2)$と、テキストの$mathcalO(widetilded sqrtT)$の高確率頻繁な後悔境界を証明します。
論文 参考訳(メタデータ) (2025-10-12T18:05:53Z) - Neural Variance-aware Dueling Bandits with Deep Representation and Shallow Exploration [6.287267171078442]
ニューラルネットワークを利用して非線形ユーティリティ関数を近似する分散認識アルゴリズムを提案する。
十分広いニューラルネットワークに対して,我々のアルゴリズムが次数$bigollt(d sqrtsum_t=1T sigma_t2 + sqrtdTrt)のサブ線形累積平均後悔を達成できることを示す理論的保証を確立する。
論文 参考訳(メタデータ) (2025-06-02T01:58:48Z) - Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Optimal and Efficient Dynamic Regret Algorithms for Non-Stationary
Dueling Bandits [27.279654173896372]
我々は,非定常的あるいは時間的に異なる選好の下で,$K$のDueling Banditsにおける空力的後悔の最小化問題について検討した。
これは、エージェントが各ラウンドで一対のアイテムを選択し、このペアに対する相対的な二項のウィンロスフィードバックのみを観察するオンライン学習設定である。
論文 参考訳(メタデータ) (2021-11-06T16:46:55Z) - Regret Lower Bound and Optimal Algorithm for High-Dimensional Contextual
Linear Bandit [10.604939762790517]
我々は、累積後悔に対して、$mathcalObig((log d)fracalpha+12Tfrac1-alpha2+log Tbig)$をミニマックス下界として証明する。
第2に,汎用的なアッパー信頼境界(UCB)戦略に着想を得た,シンプルで効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-23T19:35:38Z) - Doubly robust Thompson sampling for linear payoffs [12.375561840897742]
本稿では,Douubly Robust (DR) Thompson Sampling と呼ばれる新しいマルチアームコンテキスト帯域幅アルゴリズムを提案する。
提案アルゴリズムは, 新たな補遺分解を許容し, $tildeO(phi-2sqrtT)$の順序で補遺を改良する。
論文 参考訳(メタデータ) (2021-02-01T23:31:10Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。