論文の概要: Active Preference Learning using Maximum Regret
- arxiv url: http://arxiv.org/abs/2005.04067v2
- Date: Mon, 28 Sep 2020 19:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 12:08:33.958086
- Title: Active Preference Learning using Maximum Regret
- Title(参考訳): 最大レグレットを用いたアクティブな選好学習
- Authors: Nils Wilde, Dana Kulic, and Stephen L. Smith
- Abstract要約: 本研究では,自律ロボットの動作を直感的に特定するための枠組みとして,能動的嗜好学習について検討する。
能動的嗜好学習では、ロボットがユーザの嗜好を学習する一連の選択肢から好む行動を選択する。
- 参考スコア(独自算出の注目度): 10.317601896290467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study active preference learning as a framework for intuitively specifying
the behaviour of autonomous robots. In active preference learning, a user
chooses the preferred behaviour from a set of alternatives, from which the
robot learns the user's preferences, modeled as a parameterized cost function.
Previous approaches present users with alternatives that minimize the
uncertainty over the parameters of the cost function. However, different
parameters might lead to the same optimal behaviour; as a consequence the
solution space is more structured than the parameter space. We exploit this by
proposing a query selection that greedily reduces the maximum error ratio over
the solution space. In simulations we demonstrate that the proposed approach
outperforms other state of the art techniques in both learning efficiency and
ease of queries for the user. Finally, we show that evaluating the learning
based on the similarities of solutions instead of the similarities of weights
allows for better predictions for different scenarios.
- Abstract(参考訳): 自律ロボットの動作を直感的に特定するためのフレームワークとして,能動的選好学習について検討した。
アクティブな嗜好学習において、ユーザは、パラメータ化されたコスト関数としてモデル化されたロボットがユーザの嗜好を学習する一連の選択肢から好む行動を選択する。
従来のアプローチでは、コスト関数のパラメータに対する不確実性を最小化する代替手段がユーザに提供されていた。
しかし、異なるパラメータが同じ最適な振る舞いを導く可能性があり、結果として、解空間はパラメータ空間よりもより構造化される。
そこで我々は,解空間上の最大誤差率をゆるやかに低減する問合せ選択を提案する。
シミュレーションでは,提案手法がユーザの学習効率とクエリの容易性の両方において,他の技術よりも優れていることを示す。
最後に,重みの類似性ではなく,解の類似性に基づいて学習を評価することで,異なるシナリオに対するより良い予測が可能になることを示す。
関連論文リスト
- Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T19:52:14Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and
Optimization [59.386153202037086]
Predict-Then-フレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。
本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T01:32:06Z) - Experience in Engineering Complex Systems: Active Preference Learning
with Multiple Outcomes and Certainty Levels [1.5257326975704795]
ブラックボックス最適化とは、目的関数と/または制約集合が未知、到達不能、あるいは存在しない問題を指す。
この特定の情報を活用するために、いわゆるActive Preference Learningと呼ばれるアルゴリズムが開発された。
我々のアプローチは、さらなる情報を効果的に活用できるような方法でアルゴリズムを拡張することを目的としている。
論文 参考訳(メタデータ) (2023-02-27T15:55:37Z) - Regret Bounds and Experimental Design for Estimate-then-Optimize [9.340611077939828]
実用的なアプリケーションでは、データは見積もりと最適化の2つのステップで決定される。
見積もりステップのエラーは、見積もりを最適化して、サブ最適決定に導くことができる。
我々は、滑らかで制約のない最適化問題に対するこの後悔に縛られた小説を提供する。
論文 参考訳(メタデータ) (2022-10-27T16:13:48Z) - The Parametric Cost Function Approximation: A new approach for
multistage stochastic programming [4.847980206213335]
決定論的最適化モデルのパラメータ化バージョンは、プログラミングや動的プログラミングの複雑さを伴わずに不確実性を扱う効果的な方法であることを示す。
このアプローチは複雑な高次元状態変数を処理でき、シナリオツリーや値関数近似に関連する通常の近似を避けることができる。
論文 参考訳(メタデータ) (2022-01-01T23:25:09Z) - Low-Cost Algorithmic Recourse for Users With Uncertain Cost Functions [74.00030431081751]
本稿では,ユーザ固有のコスト関数の概念を定式化し,ユーザのための行動可能なリコースを識別する新しい手法を提案する。
本手法は,強いベースライン法に比べて最大25.89パーセントのユーザを満足させる。
論文 参考訳(メタデータ) (2021-11-01T19:49:35Z) - Learning Choice Functions via Pareto-Embeddings [3.1410342959104725]
本稿では,各オブジェクトが特徴ベクトルで表現される対象の集合から選択することの難しさを考察する。
本稿では,この課題に適した識別可能な損失関数を最小化する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-14T09:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。