論文の概要: Multi-Objective Controller Synthesis with Uncertain Human Preferences
- arxiv url: http://arxiv.org/abs/2105.04662v1
- Date: Mon, 10 May 2021 20:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 06:14:56.511324
- Title: Multi-Objective Controller Synthesis with Uncertain Human Preferences
- Title(参考訳): 不確かさを考慮した多目的制御器の合成
- Authors: Shenghui Chen, Kayla Boggess, David Parker, and Lu Feng
- Abstract要約: 我々はマルコフ決定過程の多目的合成制御系において不確定な人間選好の概念を定式化する。
提案手法は混合整数線形プログラミング(MILP)に基づいて,最適に許容されるマルチストラテジーを合成する。
- 参考スコア(独自算出の注目度): 1.580774794371876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-objective controller synthesis concerns the problem of computing an
optimal controller subject to multiple (possibly conflicting) objective
properties. The relative importance of objectives is often specified by human
decision-makers. However, there is inherent uncertainty in human preferences
(e.g., due to different preference elicitation methods). In this paper, we
formalize the notion of uncertain human preferences and present a novel
approach that accounts for uncertain human preferences in the multi-objective
controller synthesis for Markov decision processes (MDPs). Our approach is
based on mixed-integer linear programming (MILP) and synthesizes a sound,
optimally permissive multi-strategy with respect to a multi-objective property
and an uncertain set of human preferences. Experimental results on a range of
large case studies show that our MILP-based approach is feasible and scalable
to synthesize sound, optimally permissive multi-strategies with varying MDP
model sizes and uncertainty levels of human preferences. Evaluation via an
online user study also demonstrates the quality and benefits of synthesized
(multi-)strategies.
- Abstract(参考訳): 多目的コントローラ合成は、複数の(おそらく矛盾する)目的特性を考慮した最適コントローラの計算の問題に対処する。
目標の相対的重要性は、しばしば人間の意思決定者によって規定される。
しかし、人間の嗜好には本質的な不確実性がある(例えば、好みの選好方法が異なるため)。
本稿では,不確定な人間の選好の概念を定式化し,マルコフ決定過程(mdps)の多目的コントローラ合成における不確実性を考慮した新しいアプローチを提案する。
提案手法は混合整数線形プログラミング(MILP)に基づいて,多目的性および不確実な人間の嗜好に対して最適に許容されるマルチストラテジーを合成する。
大規模事例実験の結果,mdpに基づくアプローチは,mdpモデルサイズや人間の好みの不確実性レベルが変化し,音を最適に許容するマルチストラテジーを合成する上で,実現可能かつスケーラブルであることが判明した。
オンラインユーザスタディによる評価は、合成された(複数)ストラテジーの品質とメリットも示す。
関連論文リスト
- Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment [107.63756895544842]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct
Preference Optimization [78.50294936259026]
我々は、最小限のオーバーヘッドで複数のアライメント目標に対して、MODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは言語モデリングを直接報酬モデリングに折り畳み、全ての目的を特定の重み付けと組み合わせた暗黙的な集団報酬モデル(cRM)としてLMを訓練する。
理論上は MORLHF と同じ最適解を生成することが保証されているが、MODPO は事実上より安定で計算的に効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - Inferring Preferences from Demonstrations in Multi-objective
Reinforcement Learning: A Dynamic Weight-based Approach [0.0]
多目的意思決定において、選好推論は、異なる目的のために意思決定者の選好を推測する過程である。
本研究では,多目的意思決定問題に作用するエージェントの選好を推測する動的重みに基づく選好推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T11:55:07Z) - Preference-Aware Constrained Multi-Objective Bayesian Optimization [32.95116113569985]
本稿では,ブラックボックスの目的関数に対する制約付き多目的最適化の問題に対処し,入力空間の大部分を実現できない場合(すなわち制約に違反する場合)に,対象関数に対して具体的選好を行う。
主な課題は、設計空間の巨大なサイズ、複数の目的と多数の制約、そして高価なシミュレーションを実行した後にのみ特定できる実行可能な入力設計のごく一部である。
そこで本稿では,PAC-MOO(PAC-MOO)と呼ばれる制約付き複数目的ベイズ最適化手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T04:46:49Z) - Multi-Objective GFlowNets [59.16787189214784]
本稿では,多目的最適化の文脈において,多様な候補を生成する問題について検討する。
薬物発見やマテリアルデザインといった機械学習の多くの応用において、目標は、競合する可能性のある目標のセットを同時に最適化する候補を生成することである。
GFlowNetsをベースとした多目的GFlowNets(MOGFNs)を提案する。
論文 参考訳(メタデータ) (2022-10-23T16:15:36Z) - Interactive Evolutionary Multi-Objective Optimization via
Learning-to-Rank [8.421614560290609]
本稿では,関心の解(SOI)を対話的に見つけるために,嗜好に基づくEMOアルゴリズムを設計するためのフレームワークを開発する。
EMOの中核となる考え方は、人間をEMOのループに巻き込むことだ。何回か繰り返すと、DMは数人の現職候補者に対してフィードバックを求めるよう招待される。
このような情報を集めることで、彼女の好みは学習からランクまでニューラルネットワークによって徐々に学習され、次にベースラインEMOアルゴリズムを導出するために応用される。
論文 参考訳(メタデータ) (2022-04-06T06:34:05Z) - Multi-Fidelity Multi-Objective Bayesian Optimization: An Output Space
Entropy Search Approach [44.25245545568633]
複数目的のブラックボックス最適化の新たな課題を多要素関数評価を用いて検討する。
いくつかの総合的および実世界のベンチマーク問題に対する実験により、MF-OSEMOは両者の近似により、最先端の単一忠実度アルゴリズムよりも大幅に改善されていることが示された。
論文 参考訳(メタデータ) (2020-11-02T06:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。