論文の概要: Inferring Preferences from Demonstrations in Multi-objective
Reinforcement Learning: A Dynamic Weight-based Approach
- arxiv url: http://arxiv.org/abs/2304.14115v1
- Date: Thu, 27 Apr 2023 11:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 13:39:28.129001
- Title: Inferring Preferences from Demonstrations in Multi-objective
Reinforcement Learning: A Dynamic Weight-based Approach
- Title(参考訳): 多目的強化学習における実証からの評価:動的重みに基づくアプローチ
- Authors: Junlin Lu, Patrick Mannion, Karl Mason
- Abstract要約: 多目的意思決定において、選好推論は、異なる目的のために意思決定者の選好を推測する過程である。
本研究では,多目的意思決定問題に作用するエージェントの選好を推測する動的重みに基づく選好推論アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many decision-making problems feature multiple objectives. In such problems,
it is not always possible to know the preferences of a decision-maker for
different objectives. However, it is often possible to observe the behavior of
decision-makers. In multi-objective decision-making, preference inference is
the process of inferring the preferences of a decision-maker for different
objectives. This research proposes a Dynamic Weight-based Preference Inference
(DWPI) algorithm that can infer the preferences of agents acting in
multi-objective decision-making problems, based on observed behavior
trajectories in the environment. The proposed method is evaluated on three
multi-objective Markov decision processes: Deep Sea Treasure, Traffic, and Item
Gathering. The performance of the proposed DWPI approach is compared to two
existing preference inference methods from the literature, and empirical
results demonstrate significant improvements compared to the baseline
algorithms, in terms of both time requirements and accuracy of the inferred
preferences. The Dynamic Weight-based Preference Inference algorithm also
maintains its performance when inferring preferences for sub-optimal behavior
demonstrations. In addition to its impressive performance, the Dynamic
Weight-based Preference Inference algorithm does not require any interactions
during training with the agent whose preferences are inferred, all that is
required is a trajectory of observed behavior.
- Abstract(参考訳): 多くの意思決定問題には複数の目的がある。
このような問題では、異なる目的に対する意思決定者の好みを知ることは必ずしも不可能である。
しかし、意思決定者の行動を観察することはしばしば可能である。
多目的意思決定において、選好推論とは、異なる目的に対する意思決定者の選好を推測するプロセスである。
本研究では,多目的意思決定問題に作用するエージェントの選好を,環境中の観察行動軌跡に基づいて推定できる動的重みに基づく選好推論(DWPI)アルゴリズムを提案する。
提案手法は, 深海宝, 交通, アイテム収集の3つの多目的マルコフ決定過程について評価する。
提案手法の性能は文献から得られた2つの既存の選好推定手法と比較し, 実験結果から推定された選好の時間要件と精度の両面において, ベースラインアルゴリズムと比較して有意な改善が得られた。
動的重みに基づくPreference Inferenceアルゴリズムは、準最適動作実証の選好を推論する際の性能も維持する。
その印象的なパフォーマンスに加えて、Dynamic WeightベースのPreference Inferenceアルゴリズムは、好みを推測するエージェントとのトレーニング中にいかなる相互作用も必要とせず、必要なものは観察された振る舞いの軌跡である。
関連論文リスト
- Dynamic Detection of Relevant Objectives and Adaptation to Preference Drifts in Interactive Evolutionary Multi-Objective Optimization [2.4374097382908477]
意思決定過程を通じて進化し,目的の関連性に影響を与えるDM選好の動的性質について検討する。
このような変化が起こると、時代遅れや相反する好みを解消する手法を提案する。
実験により,提案手法は進化する嗜好を効果的に管理し,アルゴリズムが生成するソリューションの品質と望ましさを著しく向上することを示した。
論文 参考訳(メタデータ) (2024-11-07T09:09:06Z) - Inferring Preferences from Demonstrations in Multi-objective Reinforcement Learning [2.9845592719739127]
本研究では,動的重みに基づく選好推定アルゴリズムを提案する。
デモから多目的意思決定問題に作用するエージェントの選好を推測することができる。
論文 参考訳(メタデータ) (2024-09-30T12:49:10Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - Differentiation of Multi-objective Data-driven Decision Pipeline [34.577809430781144]
実世界のシナリオは、しばしば多目的データ駆動最適化問題を含む。
従来の2段階の手法では、機械学習モデルを用いて問題係数を推定し、続いて予測された最適化問題に取り組むためにソルバを呼び出す。
近年の取り組みは、下流最適化問題から導かれる意思決定損失を用いた予測モデルのエンドツーエンドトレーニングに重点を置いている。
論文 参考訳(メタデータ) (2024-06-02T15:42:03Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Behavior-Contextualized Item Preference Modeling for Multi-Behavior Recommendation [30.715182718492244]
本稿では,マルチビヘイビア・レコメンデーションのためのビヘイビア・コンテクスチュアライズド・アイテム・プライオリティ・モデリング(BCIPM)を提案する。
提案する行動文脈化項目選好ネットワークは,それぞれの行動の中でユーザの特定の項目選好を識別し,学習する。
その後、最終勧告の目的行動に関連する嗜好のみを考慮し、補助行動からノイズを著しく低減する。
論文 参考訳(メタデータ) (2024-04-28T12:46:36Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - Preference Inference from Demonstration in Multi-objective Multi-agent
Decision Making [0.0]
本稿では,最適あるいは準最適のいずれかから線形選好重みを推定するアルゴリズムを提案する。
実験結果から, ベースラインアルゴリズムと比較して有意な改善が得られた。
今後,マルチエージェントシステムにおけるアルゴリズムの有効性を評価することを計画している。
論文 参考訳(メタデータ) (2023-04-27T12:19:28Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。