論文の概要: IMO$^3$: Interactive Multi-Objective Off-Policy Optimization
- arxiv url: http://arxiv.org/abs/2201.09798v2
- Date: Tue, 25 Jan 2022 04:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 12:39:33.365081
- Title: IMO$^3$: Interactive Multi-Objective Off-Policy Optimization
- Title(参考訳): IMO$^3$:インタラクティブ多目的オフポリティ最適化
- Authors: Nan Wang, Hongning Wang, Maryam Karimzadehgan, Branislav Kveton, Craig
Boutilier
- Abstract要約: システムデザイナは、望ましい運用ポイントに到達するために、目標をトレードオフするポリシーを見つける必要があります。
対話型多目的オフポリシー最適化(IMO$3$)を提案する。
IMO$3$は、確率の高い準最適ポリシーを識別する。
- 参考スコア(独自算出の注目度): 45.2918894257473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most real-world optimization problems have multiple objectives. A system
designer needs to find a policy that trades off these objectives to reach a
desired operating point. This problem has been studied extensively in the
setting of known objective functions. We consider a more practical but
challenging setting of unknown objective functions. In industry, this problem
is mostly approached with online A/B testing, which is often costly and
inefficient. As an alternative, we propose interactive multi-objective
off-policy optimization (IMO$^3$). The key idea in our approach is to interact
with a system designer using policies evaluated in an off-policy fashion to
uncover which policy maximizes her unknown utility function. We theoretically
show that IMO$^3$ identifies a near-optimal policy with high probability,
depending on the amount of feedback from the designer and training data for
off-policy estimation. We demonstrate its effectiveness empirically on multiple
multi-objective optimization problems.
- Abstract(参考訳): ほとんどの実世界の最適化問題には複数の目的がある。
システム設計者は、望ましい運用ポイントに達するために、これらの目的をトレードオフするポリシーを見つける必要があります。
この問題は既知の目的関数の設定において広く研究されている。
我々は、未知の目的関数のより実用的で挑戦的な設定を考える。
業界では、この問題は主にオンラインA/Bテストによって解決される。
また,対話型多目的オフポリシー最適化(IMO$^3$)を提案する。
我々のアプローチにおける重要なアイデアは、オフポリシーで評価されたポリシーを使用してシステムデザイナーと対話し、どのポリシーが彼女の未知のユーティリティ機能を最大化するかを明らかにすることです。
理論上, imo$^3$は, 設計者からのフィードバック量やオフ・ポリシー推定のためのトレーニングデータに応じて, 高い確率で最適に近い方針を特定する。
複数の多目的最適化問題に対して,その有効性を実証的に示す。
関連論文リスト
- Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - Probably Approximately Correct Federated Learning [20.85915650297227]
Federated Learning(FL)は、プライバシ、ユーティリティ、効率性を主柱とする、新たな分散学習パラダイムである。
既存の研究は、無限小のプライバシー漏洩、ユーティリティ損失、効率性を同時に達成することはありそうにないことを示している。
FLアルゴリズムの設計において、最適なトレードオフソリューションを見つける方法が重要な考慮事項である。
論文 参考訳(メタデータ) (2023-04-10T15:12:34Z) - Eliciting User Preferences for Personalized Multi-Objective Decision
Making through Comparative Feedback [76.7007545844273]
目的に対して異なるユーザの好みに対応する多目的意思決定フレームワークを提案する。
我々のモデルは、ベクトル値の報酬関数を持つマルコフ決定プロセスで構成され、各ユーザが未知の選好ベクトルを持つ。
少数の比較クエリを用いて,ユーザに対してほぼ最適なポリシを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T23:58:19Z) - Uncertainty-Aware Search Framework for Multi-Objective Bayesian
Optimization [40.40632890861706]
高価な関数評価を用いたマルチオブジェクト(MO)ブラックボックス最適化の問題点を考察する。
UeMOと呼ばれる新しい不確実性対応検索フレームワークを提案し、評価のための入力シーケンスを効率的に選択する。
論文 参考訳(メタデータ) (2022-04-12T16:50:48Z) - $\{\text{PF}\}^2\text{ES}$: Parallel Feasible Pareto Frontier Entropy
Search for Multi-Objective Bayesian Optimization Under Unknown Constraints [4.672142224503371]
本稿では,多目的ベイズ最適化のための情報理論獲得関数を提案する。
$textPF2$ESは、並列設定のための相互情報の低コストで正確な見積もりを提供する。
合成問題と実生活問題で$textPF2$ESをベンチマークします。
論文 参考訳(メタデータ) (2022-04-11T21:06:23Z) - Many Objective Bayesian Optimization [0.0]
マルチオブジェクトベイズ最適化(MOBO)は、ブラックボックスの同時最適化に成功している一連の手法である。
特に、MOBO法は、多目的最適化問題における目的の数が3以上である場合に問題があり、これは多くの目的設定である。
GPが測定値とアルゴリズムの有効性の予測分布を予測できるような,玩具,合成,ベンチマーク,実実験のセットで実証的な証拠を示す。
論文 参考訳(メタデータ) (2021-07-08T21:57:07Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Multi-Fidelity Multi-Objective Bayesian Optimization: An Output Space
Entropy Search Approach [44.25245545568633]
複数目的のブラックボックス最適化の新たな課題を多要素関数評価を用いて検討する。
いくつかの総合的および実世界のベンチマーク問題に対する実験により、MF-OSEMOは両者の近似により、最先端の単一忠実度アルゴリズムよりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2020-11-02T06:59:04Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。