論文の概要: Using soft maximin for risk averse multi-objective decision-making
- arxiv url: http://arxiv.org/abs/2208.04273v1
- Date: Mon, 8 Aug 2022 17:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:07:47.313843
- Title: Using soft maximin for risk averse multi-objective decision-making
- Title(参考訳): ソフトマキシミンを用いたリスク逆多目的意思決定
- Authors: Benjamin J Smith and Robert Klassert and Roland Pihlakas
- Abstract要約: 分割関数 exp-log loss aversion (SFELLA) は最先端のしきい値アライメント目標法よりも高速に学習する。
SFELLAは、客観的スケールの変化に対する相対的な堅牢性の改善を示す。
これは、しきい値のアプローチで時々発生する問題を避けるのに有用である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Balancing multiple competing and conflicting objectives is an essential task
for any artificial intelligence tasked with satisfying human values or
preferences. Conflict arises both from misalignment between individuals with
competing values, but also between conflicting value systems held by a single
human. Starting with principle of loss-aversion, we designed a set of soft
maximin function approaches to multi-objective decision-making. Bench-marking
these functions in a set of previously-developed environments, we found that
one new approach in particular, `split-function exp-log loss aversion'
(SFELLA), learns faster than the state of the art thresholded alignment
objective method \cite{vamplew_potential-based_2021} on three of four tasks it
was tested on, and achieved the same optimal performance after learning. SFELLA
also showed relative robustness improvements against changes in objective
scale, which may highlight an advantage dealing with distribution shifts in the
environment dynamics. Further work had to be omitted from the preprint, but in
the final published version, we will further compare SFELLA to the
multi-objective reward exponentials (MORE) approach, demonstrating that SFELLA
performs similarly to MORE in a simple previously-described foraging task, but
in a modified foraging environment with a new resource that was not depleted as
the agent worked, SFELLA collected more of the new resource with very little
cost incurred in terms of the old resource. Overall, we found SFELLA useful for
avoiding problems that sometimes occur with a thresholded approach, and more
reward-responsive than MORE while retaining its conservative, loss-averse
incentive structure.
- Abstract(参考訳): 複数の競合する目標と矛盾する目標のバランスをとることは、人間の価値観や好みを満たす人工知能にとって不可欠なタスクである。
矛盾は、競合する価値を持つ個人間の不一致から生じるだけでなく、一人の人間が持つ価値体系の対立からも生じる。
損失回避の原理から,多目的意思決定へのソフトマキシミン関数のアプローチを考案した。
従来開発された一連の環境におけるこれらの関数をベンチマークし、特に「分離関数exp-log損失回避(SFELLA)」という新しいアプローチが、テストした4つのタスクのうち3つのタスクについて、アートしきい値アライメント目的法 \cite{vamplew_potential-based_2021} の状態よりも高速に学習し、学習後に同じ最適なパフォーマンスを達成した。
SFELLAはまた、客観的スケールの変化に対する相対的なロバスト性の改善を示し、環境力学における分散シフトを扱う利点を強調している。
最終版では、SFELLAとMORE(Multi-objective reward indexs)のアプローチを比較検討して、SFELLAがMOREと同様の動作を、前述した単純な採餌タスクで行うことを実証するが、エージェントが働くと劣化しない新しい資源による改良された採餌環境では、SFELLAは、古い資源の観点から非常に少ないコストで、新たな資源を収集する。
全体として、SFELLAは、しきい値のアプローチで発生する問題を回避するのに有用であり、MOREよりも報酬応答性が高く、保守的でロス・アバースなインセンティブ構造を維持している。
関連論文リスト
- Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - DiveR-CT: Diversity-enhanced Red Teaming with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Multi-Objective Reinforcement Learning-based Approach for Pressurized Water Reactor Optimization [0.0]
PEARLは、従来のポリシーに基づく多目的強化学習法とを、単一のポリシーを学習することで区別する。
ディープラーニングと進化的テクニックにインスパイアされたいくつかのバージョンが作成され、制約のない問題ドメインと制約のない問題ドメインの両方に対応している。
2つの実用的PWRコアローディングパターン最適化問題を用いて実世界の応用性を実証した。
論文 参考訳(メタデータ) (2023-12-15T20:41:09Z) - TMoE-P: Towards the Pareto Optimum for Multivariate Soft Sensors [7.236362889442992]
我々は,多変量ソフトセンサを多目的問題に再構成し,課題と最先端性能の両方に対処する。
負の伝達問題に対処するために,我々はまず,パラメータ共有のための客観的かつ客観的な専門家を利用したOMoEモジュールを提案する。
次に,シーソー現象に対処するため,最適ルーティングを実現するためのタスク認識型Mixture-of-Expertsフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-21T06:49:09Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Modularity benefits reinforcement learning agents with competing
homeostatic drives [5.044282303487273]
生物学的に関係のある多目的問題,変数集合の連続的ホメオスタシスについて検討し,モノリシックなディープQネットワークとモジュールネットワークを比較し,各変数に対する専用Qラーナと比較する。
モジュラーエージェント:a) は最小限に決定された探索を必要とし、b. はサンプル効率を改善し、c. はドメイン外摂動に対してより堅牢である。
論文 参考訳(メタデータ) (2022-04-13T18:57:55Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。