Fugu-MT 論文翻訳(概要): IMO$^3$: Interactive Multi-Objective Off-Policy Optimization

論文の概要: IMO$^3$: Interactive Multi-Objective Off-Policy Optimization

arxiv url: http://arxiv.org/abs/2201.09798v2
Date: Tue, 25 Jan 2022 04:30:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-26 12:39:33.365081
Title: IMO$^3$: Interactive Multi-Objective Off-Policy Optimization
Title（参考訳）: IMO$^3$:インタラクティブ多目的オフポリティ最適化
Authors: Nan Wang, Hongning Wang, Maryam Karimzadehgan, Branislav Kveton, Craig Boutilier
Abstract要約: システムデザイナは、望ましい運用ポイントに到達するために、目標をトレードオフするポリシーを見つける必要があります。対話型多目的オフポリシー最適化(IMO$3$)を提案する。 IMO$3$は、確率の高い準最適ポリシーを識別する。
参考スコア（独自算出の注目度）: 45.2918894257473
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most real-world optimization problems have multiple objectives. A system designer needs to find a policy that trades off these objectives to reach a desired operating point. This problem has been studied extensively in the setting of known objective functions. We consider a more practical but challenging setting of unknown objective functions. In industry, this problem is mostly approached with online A/B testing, which is often costly and inefficient. As an alternative, we propose interactive multi-objective off-policy optimization (IMO$^3$). The key idea in our approach is to interact with a system designer using policies evaluated in an off-policy fashion to uncover which policy maximizes her unknown utility function. We theoretically show that IMO$^3$ identifies a near-optimal policy with high probability, depending on the amount of feedback from the designer and training data for off-policy estimation. We demonstrate its effectiveness empirically on multiple multi-objective optimization problems.
Abstract（参考訳）: ほとんどの実世界の最適化問題には複数の目的がある。システム設計者は、望ましい運用ポイントに達するために、これらの目的をトレードオフするポリシーを見つける必要があります。この問題は既知の目的関数の設定において広く研究されている。我々は、未知の目的関数のより実用的で挑戦的な設定を考える。業界では、この問題は主にオンラインA/Bテストによって解決される。また,対話型多目的オフポリシー最適化(IMO$^3$)を提案する。我々のアプローチにおける重要なアイデアは、オフポリシーで評価されたポリシーを使用してシステムデザイナーと対話し、どのポリシーが彼女の未知のユーティリティ機能を最大化するかを明らかにすることです。理論上, imo$^3$は, 設計者からのフィードバック量やオフ・ポリシー推定のためのトレーニングデータに応じて, 高い確率で最適に近い方針を特定する。複数の多目的最適化問題に対して,その有効性を実証的に示す。

関連論文リスト

Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文参考訳（メタデータ） (2025-06-08T13:37:38Z)
Preference Elicitation for Multi-objective Combinatorial Optimization with Active Learning and Maximum Likelihood Estimation [8.033273941848254]
現実の最適化問題には、価格、製品品質、持続可能性など、相反する目標が伴うことが多い。複数の目的に対処する計算効率のよい方法は、それらを線形結合のような単目的関数に集約することである。 Constructive Preference Elicitationフレームワークを構築し、これらの3つのプロパティをどのように改善できるかを示す。
論文参考訳（メタデータ） (2025-03-14T14:24:27Z)
Pareto Optimal Algorithmic Recourse in Multi-cost Function [0.44938884406455726]
アルゴリズム的リコースは、個々の特徴を変更するために最小限のコストのアクションを識別することを目的としており、それによって望ましい結果が得られる。現在のリコース機構のほとんどは、コスト関数が微分可能であると仮定する勾配に基づく手法を使用しており、現実のシナリオでは適用できないことが多い。本研究では,非微分可能かつ離散的多コスト関数を扱うアルゴリズム的リコースフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-11T03:16:08Z)
Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文参考訳（メタデータ） (2024-07-04T02:19:49Z)
Probably Approximately Correct Federated Learning [20.85915650297227]
Federated Learning(FL)は、プライバシ、ユーティリティ、効率性を主柱とする、新たな分散学習パラダイムである。既存の研究は、無限小のプライバシー漏洩、ユーティリティ損失、効率性を同時に達成することはありそうにないことを示している。 FLアルゴリズムの設計において、最適なトレードオフソリューションを見つける方法が重要な考慮事項である。
論文参考訳（メタデータ） (2023-04-10T15:12:34Z)
Eliciting User Preferences for Personalized Multi-Objective Decision Making through Comparative Feedback [76.7007545844273]
目的に対して異なるユーザの好みに対応する多目的意思決定フレームワークを提案する。我々のモデルは、ベクトル値の報酬関数を持つマルコフ決定プロセスで構成され、各ユーザが未知の選好ベクトルを持つ。少数の比較クエリを用いて,ユーザに対してほぼ最適なポリシを求めるアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-07T23:58:19Z)
Uncertainty-Aware Search Framework for Multi-Objective Bayesian Optimization [40.40632890861706]
高価な関数評価を用いたマルチオブジェクト(MO)ブラックボックス最適化の問題点を考察する。 UeMOと呼ばれる新しい不確実性対応検索フレームワークを提案し、評価のための入力シーケンスを効率的に選択する。
論文参考訳（メタデータ） (2022-04-12T16:50:48Z)
$\{\text{PF}\}^2\text{ES}$: Parallel Feasible Pareto Frontier Entropy Search for Multi-Objective Bayesian Optimization Under Unknown Constraints [4.672142224503371]
本稿では,多目的ベイズ最適化のための情報理論獲得関数を提案する。 $textPF2$ESは、並列設定のための相互情報の低コストで正確な見積もりを提供する。合成問題と実生活問題で$textPF2$ESをベンチマークします。
論文参考訳（メタデータ） (2022-04-11T21:06:23Z)
Many Objective Bayesian Optimization [0.0]
マルチオブジェクトベイズ最適化(MOBO)は、ブラックボックスの同時最適化に成功している一連の手法である。特に、MOBO法は、多目的最適化問題における目的の数が3以上である場合に問題があり、これは多くの目的設定である。 GPが測定値とアルゴリズムの有効性の予測分布を予測できるような,玩具,合成,ベンチマーク,実実験のセットで実証的な証拠を示す。
論文参考訳（メタデータ） (2021-07-08T21:57:07Z)
Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文参考訳（メタデータ） (2020-11-19T22:35:31Z)
Multi-Fidelity Multi-Objective Bayesian Optimization: An Output Space Entropy Search Approach [44.25245545568633]
複数目的のブラックボックス最適化の新たな課題を多要素関数評価を用いて検討する。いくつかの総合的および実世界のベンチマーク問題に対する実験により、MF-OSEMOは両者の近似により、最先端の単一忠実度アルゴリズムよりも大幅に改善されていることが示された。
論文参考訳（メタデータ） (2020-11-02T06:59:04Z)
Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文参考訳（メタデータ） (2020-06-19T20:49:14Z)
Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。 OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文参考訳（メタデータ） (2019-12-12T08:40:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。