論文の概要: Vector Optimization with Stochastic Bandit Feedback
- arxiv url: http://arxiv.org/abs/2110.12311v1
- Date: Sat, 23 Oct 2021 22:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 15:10:27.666986
- Title: Vector Optimization with Stochastic Bandit Feedback
- Title(参考訳): 確率帯域フィードバックを用いたベクトル最適化
- Authors: \c{C}a\u{g}{\i}n Ararat, Cem Tekin
- Abstract要約: 幾何学的帯域フィードバックを用いたベクトル最適化問題を導入する。
多次元平均報酬ベクトルを持つ$K$の設計を、多面的順序付けコーン$C$に従って部分的に順序付けする。
- 参考スコア(独自算出の注目度): 10.66048003460524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce vector optimization problems with stochastic bandit feedback,
which extends the best arm identification problem to vector-valued rewards. We
consider $K$ designs, with multi-dimensional mean reward vectors, which are
partially ordered according to a polyhedral ordering cone $C$. This generalizes
the concept of Pareto set in multi-objective optimization and allows different
sets of preferences of decision-makers to be encoded by $C$. Different than
prior work, we define approximations of the Pareto set based on direction-free
covering and gap notions. We study the setting where an evaluation of each
design yields a noisy observation of the mean reward vector. Under subgaussian
noise assumption, we investigate the sample complexity of the na\"ive
elimination algorithm in an ($\epsilon,\delta$)-PAC setting, where the goal is
to identify an ($\epsilon,\delta$)-PAC Pareto set with the minimum number of
design evaluations. In particular, we identify cone-dependent geometric
conditions on the deviations of empirical reward vectors from their mean under
which the Pareto front can be approximated accurately. We run experiments to
verify our theoretical results and illustrate how $C$ and sampling budget
affect the Pareto set, returned ($\epsilon,\delta$)-PAC Pareto set and the
success of identification.
- Abstract(参考訳): 我々は,最高のアーム識別問題をベクトル値の報酬に拡張する確率的バンディットフィードバックを用いたベクトル最適化問題を導入する。
多次元平均報酬ベクトルを持つ$K$の設計を、多面的順序付けコーン$C$に従って部分的に順序付けする。
これは多目的最適化においてパレート集合の概念を一般化し、意思決定者の好みの異なる集合を$C$でエンコードすることを可能にする。
先行研究と異なり、方向のない被覆とギャップの概念に基づいてパレート集合の近似を定義する。
本研究では,各設計の評価が平均報酬ベクトルのノイズ観測をもたらす設定について検討する。
サブガウス雑音仮定の下では, 設計評価の最小値を持つ(\epsilon,\delta$)-PACパレートセットを同定することを目的とした, (\epsilon,\delta$)-PAC設定において, na\ の除去アルゴリズムのサンプル複雑性について検討する。
特に,経験的報酬ベクトルの偏差に関する円錐依存性の幾何学的条件を,パレートフロントを正確に近似できる平均値から同定する。
理論的な結果を検証する実験を行い、$c$とサンプリング予算がpareto集合にどのように影響するかを説明し、返却された$\epsilon,\delta$)-pac pareto集合と識別の成功を示す。
関連論文リスト
- Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Faster Convergence with Multiway Preferences [99.68922143784306]
本稿では,符号関数に基づく比較フィードバックモデルについて考察し,バッチとマルチウェイの比較による収束率の解析を行う。
本研究は,マルチウェイ選好による凸最適化の問題を初めて研究し,最適収束率を解析するものである。
論文 参考訳(メタデータ) (2023-12-19T01:52:13Z) - Bandit Pareto Set Identification: the Fixed Budget Setting [12.326452468513228]
マルチアームバンディットモデルにおける純粋探索問題について検討する。
目的は、平均値が他の分布よりも均一に悪くない分布を特定することである。
論文 参考訳(メタデータ) (2023-11-07T13:43:18Z) - Learning the Pareto Front Using Bootstrapped Observation Samples [17.519167857253404]
本研究では,非支配的な平均報酬ベクトルを持つアームの集合を同定するアルゴリズムを提案する。
提案アルゴリズムのサンプル複雑性は対数係数まで最適である。
主要なコントリビューションは、新しい推定器で、ラウンド毎に、未知のパラメータの見積もりを複数のコンテキスト方向に沿って更新する。
論文 参考訳(メタデータ) (2023-05-31T18:15:09Z) - Learning in Inverse Optimization: Incenter Cost, Augmented Suboptimality
Loss, and Algorithms [4.0295993947651025]
我々は、最近Besbesらによって提案された「内心」の概念を、周辺に類似した新しい概念として紹介する。
本稿では,不整合データ問題に対する内心的概念の緩和であるASL (Augmented Suboptimality Loss) という新たな損失関数を提案する。
このアルゴリズムは、近似的な下位段階の評価とミラー降下更新ステップを組み合わせることで、高濃度の離散可能な集合を持つIO問題に対して、確実に効率的である。
論文 参考訳(メタデータ) (2023-05-12T18:58:08Z) - Multi-block-Single-probe Variance Reduced Estimator for Coupled
Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。
本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文 参考訳(メタデータ) (2022-07-18T12:03:26Z) - Robust Subset Selection by Greedy and Evolutionary Pareto Optimization [23.0838604893412]
サブセット選択は、ある目的関数を最大化するために、グラウンドセットからサブセットを選択することを目的としている。
グリーディアルゴリズムは1-e-betagamma$の近似比を得ることができ、$beta$と$gamma$は対象関数の相関と部分モジュラリティ比である。
論文 参考訳(メタデータ) (2022-05-03T11:00:54Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Pareto Active Learning with Gaussian Processes and Adaptive
Discretization [12.179548969182573]
GPサンプリング関数の滑らかさと$(cal X,d)$の構造を利用して高速に学習するアルゴリズムを提案する。
本質的に、Adaptive $boldsymbolepsilon$-PALは木に基づく適応離散化技術を用いて、$boldsymbolepsilon$-accurate Paretoの設計セットを特定する。
論文 参考訳(メタデータ) (2020-06-24T21:27:27Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。