論文の概要: Multi-Objective Controller Synthesis with Uncertain Human Preferences
- arxiv url: http://arxiv.org/abs/2105.04662v1
- Date: Mon, 10 May 2021 20:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 06:14:56.511324
- Title: Multi-Objective Controller Synthesis with Uncertain Human Preferences
- Title(参考訳): 不確かさを考慮した多目的制御器の合成
- Authors: Shenghui Chen, Kayla Boggess, David Parker, and Lu Feng
- Abstract要約: 我々はマルコフ決定過程の多目的合成制御系において不確定な人間選好の概念を定式化する。
提案手法は混合整数線形プログラミング(MILP)に基づいて,最適に許容されるマルチストラテジーを合成する。
- 参考スコア(独自算出の注目度): 1.580774794371876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-objective controller synthesis concerns the problem of computing an
optimal controller subject to multiple (possibly conflicting) objective
properties. The relative importance of objectives is often specified by human
decision-makers. However, there is inherent uncertainty in human preferences
(e.g., due to different preference elicitation methods). In this paper, we
formalize the notion of uncertain human preferences and present a novel
approach that accounts for uncertain human preferences in the multi-objective
controller synthesis for Markov decision processes (MDPs). Our approach is
based on mixed-integer linear programming (MILP) and synthesizes a sound,
optimally permissive multi-strategy with respect to a multi-objective property
and an uncertain set of human preferences. Experimental results on a range of
large case studies show that our MILP-based approach is feasible and scalable
to synthesize sound, optimally permissive multi-strategies with varying MDP
model sizes and uncertainty levels of human preferences. Evaluation via an
online user study also demonstrates the quality and benefits of synthesized
(multi-)strategies.
- Abstract(参考訳): 多目的コントローラ合成は、複数の(おそらく矛盾する)目的特性を考慮した最適コントローラの計算の問題に対処する。
目標の相対的重要性は、しばしば人間の意思決定者によって規定される。
しかし、人間の嗜好には本質的な不確実性がある(例えば、好みの選好方法が異なるため)。
本稿では,不確定な人間の選好の概念を定式化し,マルコフ決定過程(mdps)の多目的コントローラ合成における不確実性を考慮した新しいアプローチを提案する。
提案手法は混合整数線形プログラミング(MILP)に基づいて,多目的性および不確実な人間の嗜好に対して最適に許容されるマルチストラテジーを合成する。
大規模事例実験の結果,mdpに基づくアプローチは,mdpモデルサイズや人間の好みの不確実性レベルが変化し,音を最適に許容するマルチストラテジーを合成する上で,実現可能かつスケーラブルであることが判明した。
オンラインユーザスタディによる評価は、合成された(複数)ストラテジーの品質とメリットも示す。
関連論文リスト
- Dynamic Detection of Relevant Objectives and Adaptation to Preference Drifts in Interactive Evolutionary Multi-Objective Optimization [2.4374097382908477]
意思決定過程を通じて進化し,目的の関連性に影響を与えるDM選好の動的性質について検討する。
このような変化が起こると、時代遅れや相反する好みを解消する手法を提案する。
実験により,提案手法は進化する嗜好を効果的に管理し,アルゴリズムが生成するソリューションの品質と望ましさを著しく向上することを示した。
論文 参考訳(メタデータ) (2024-11-07T09:09:06Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling [34.32744849352087]
本研究では,人間の好みに合わせて,大規模言語モデルを逐次微調整する手法を提案する。
理論的には閉形式最適SPOポリシーと損失関数を導出する。
異なる大きさのLLMと複数の評価データセットの実証結果から、SPOはLLMを人間の嗜好の多次元にわたって整列させることに成功した。
論文 参考訳(メタデータ) (2024-05-21T12:47:17Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - Inferring Preferences from Demonstrations in Multi-objective
Reinforcement Learning: A Dynamic Weight-based Approach [0.0]
多目的意思決定において、選好推論は、異なる目的のために意思決定者の選好を推測する過程である。
本研究では,多目的意思決定問題に作用するエージェントの選好を推測する動的重みに基づく選好推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T11:55:07Z) - Preference-Aware Constrained Multi-Objective Bayesian Optimization [32.95116113569985]
本稿では,ブラックボックスの目的関数に対する制約付き多目的最適化の問題に対処し,入力空間の大部分を実現できない場合(すなわち制約に違反する場合)に,対象関数に対して具体的選好を行う。
主な課題は、設計空間の巨大なサイズ、複数の目的と多数の制約、そして高価なシミュレーションを実行した後にのみ特定できる実行可能な入力設計のごく一部である。
そこで本稿では,PAC-MOO(PAC-MOO)と呼ばれる制約付き複数目的ベイズ最適化手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T04:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。