Fugu-MT 論文翻訳(概要): Pareto Front Identification with Regret Minimization

論文の概要: Pareto Front Identification with Regret Minimization

arxiv url: http://arxiv.org/abs/2306.00096v1
Date: Wed, 31 May 2023 18:15:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 20:07:53.714923
Title: Pareto Front Identification with Regret Minimization
Title（参考訳）: 後悔最小化によるパレートフロント識別
Authors: Wonyoung Kim and Garud Iyengar and Assaf Zeevi
Abstract要約: 我々のアルゴリズムの新たな特徴は、全てのアクションのコンテキストを使用することである。我々のアルゴリズムの新たな特徴は、全てのアクションのコンテキストを使用することである。
参考スコア（独自算出の注目度）: 18.208834479445894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider Pareto front identification for linear bandits (PFILin) where the goal is to identify a set of arms whose reward vectors are not dominated by any of the others when the mean reward vector is a linear function of the context. PFILin includes the best arm identification problem and multi-objective active learning as special cases. The sample complexity of our proposed algorithm is $\tilde{O}(d/\Delta^2)$, where $d$ is the dimension of contexts and $\Delta$ is a measure of problem complexity. Our sample complexity is optimal up to a logarithmic factor. A novel feature of our algorithm is that it uses the contexts of all actions. In addition to efficiently identifying the Pareto front, our algorithm also guarantees $\tilde{O}(\sqrt{d/t})$ bound for instantaneous Pareto regret when the number of samples is larger than $\Omega(d\log dL)$ for $L$ dimensional vector rewards. By using the contexts of all arms, our proposed algorithm simultaneously provides efficient Pareto front identification and regret minimization. Numerical experiments demonstrate that the proposed algorithm successfully identifies the Pareto front while minimizing the regret.
Abstract（参考訳）: 平均報酬ベクトルが文脈の線形関数である場合、報酬ベクトルが他のいずれにも支配されないアームの集合を識別することを目的として、pareto front identification for linear bandits (pfilin) を考える。 PFILinは、特に、最高の腕識別問題と多目的能動的学習を含んでいる。提案アルゴリズムのサンプル複雑性は$\tilde{o}(d/\delta^2)$であり、ここで$d$は文脈の次元、$\delta$は問題複雑性の尺度である。サンプルの複雑さは対数係数まで最適です。我々のアルゴリズムの新たな特徴は、全てのアクションのコンテキストを使用することである。パレートフロントを効率的に同定するだけでなく、サンプルの数が$\Omega(d\log dL)$よりも大きい場合、このアルゴリズムは即時パレート後悔に対して$\tilde{O}(\sqrt{d/t})$boundを保証します。全アームのコンテキストを利用することで,提案アルゴリズムはパレートフロントの識別と後悔の最小化を同時に行う。数値実験により,提案アルゴリズムは後悔を最小限に抑えつつ,パレートフロントの同定に成功した。

関連論文リスト

Constrained Pareto Set Identification with Bandit Feedback [10.967572582187014]
意味不明の$Kの武器が与えられた場合、平均が他の腕よりも一様でない腕のセットを特定することが目的である。我々は固定信頼度同定に重点を置いており、レースのようなアルゴリズムを著しく上回るアルゴリズムを導入している。
論文参考訳（メタデータ） (2025-06-09T18:29:28Z)
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
Predictive Coresets [0.0]
従来のコアセットアプローチは、フルデータセットと重み付きデータセットの確率関数間のクルバック・リーバーの偏差を最小化することで重みを決定する。そこで本研究では,ランダム化後続法を用いて,未知の後方予測分布に一致した重みを求める方法を提案する。ランダムな分割や密度推定を含む多種多様な問題に対して,提案したコアセット構築の性能を評価する。
論文参考訳（メタデータ） (2025-02-08T23:57:43Z)
Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。本手法は, 精度の高い問題に特に適している。提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文参考訳（メタデータ） (2023-11-08T00:10:21Z)
Bayesian Hierarchical Models for Counterfactual Estimation [12.159830463756341]
本稿では,多種多様なカウンターファクトの集合を推定する確率的パラダイムを提案する。摂動を事前分布関数によるランダム変数として扱う。収束特性の優れた勾配ベースサンプリング器は、後方サンプルを効率的に計算する。
論文参考訳（メタデータ） (2023-01-21T00:21:11Z)
Transfer Learning for Contextual Multi-armed Bandits [8.97013379960904]
本研究では,コパラメトリックシフトモデルに基づく非文脈的マルチアームバンディットの移動学習問題について検討する。ミニマックス後悔を実現する新しい伝達学習アルゴリズムを提案する。対象領域の学習に補助的ソース領域からのデータを活用する利点を説明するため,シミュレーション研究を行った。
論文参考訳（メタデータ） (2022-11-22T22:24:28Z)
Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文参考訳（メタデータ） (2022-06-01T13:46:25Z)
Mean-based Best Arm Identification in Stochastic Bandits under Reward Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文参考訳（メタデータ） (2021-11-14T21:49:58Z)
Vector Optimization with Stochastic Bandit Feedback [10.66048003460524]
幾何学的帯域フィードバックを用いたベクトル最適化問題を導入する。多次元平均報酬ベクトルを持つ$K$の設計を、多面的順序付けコーン$C$に従って部分的に順序付けする。
論文参考訳（メタデータ） (2021-10-23T22:38:54Z)
Towards Deterministic Diverse Subset Sampling [14.236193187116049]
本稿では,k-DPPのグリーディ決定論的適応について論じる。画像検索作業におけるモデルの有用性を示す。
論文参考訳（メタデータ） (2021-05-28T16:05:58Z)
Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文参考訳（メタデータ） (2020-10-21T13:43:48Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
CONSAC: Robust Multi-Model Fitting by Conditional Sample Consensus [62.86856923633923]
我々は,同じ形状の複数のパラメトリックモデルを雑音測定に適合させる頑健な推定器を提案する。複数のモデル検出のための手作り検索戦略を利用する従来の研究とは対照的に,データから検索戦略を学習する。探索の自己教師付き学習において,提案したアルゴリズムをマルチホログラフィー推定で評価し,最先端手法よりも優れた精度を示す。
論文参考訳（メタデータ） (2020-01-08T17:37:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。