論文の概要: Preference Inference from Demonstration in Multi-objective Multi-agent
Decision Making
- arxiv url: http://arxiv.org/abs/2304.14126v1
- Date: Thu, 27 Apr 2023 12:19:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 13:27:48.016672
- Title: Preference Inference from Demonstration in Multi-objective Multi-agent
Decision Making
- Title(参考訳): 多目的マルチエージェント意思決定における実証からの推定
- Authors: Junlin Lu
- Abstract要約: 本稿では,最適あるいは準最適のいずれかから線形選好重みを推定するアルゴリズムを提案する。
実験結果から, ベースラインアルゴリズムと比較して有意な改善が得られた。
今後,マルチエージェントシステムにおけるアルゴリズムの有効性を評価することを計画している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: It is challenging to quantify numerical preferences for different objectives
in a multi-objective decision-making problem. However, the demonstrations of a
user are often accessible. We propose an algorithm to infer linear preference
weights from either optimal or near-optimal demonstrations. The algorithm is
evaluated in three environments with two baseline methods. Empirical results
demonstrate significant improvements compared to the baseline algorithms, in
terms of both time requirements and accuracy of the inferred preferences. In
future work, we plan to evaluate the algorithm's effectiveness in a multi-agent
system, where one of the agents is enabled to infer the preferences of an
opponent using our preference inference algorithm.
- Abstract(参考訳): 多目的意思決定問題において、異なる目的に対する数値的選好を定量化することは困難である。
しかし、ユーザのデモは、しばしばアクセス可能である。
最適または近最適のデモンストレーションから線形選好重みを推定するアルゴリズムを提案する。
このアルゴリズムは2つのベースライン法を用いて3つの環境で評価される。
実験結果から,推定された選好の時間要件と精度の両面で,ベースラインアルゴリズムと比較して有意な改善が得られた。
今後は,エージェントの1つが選好推論アルゴリズムを用いて相手の選好を推測できるマルチエージェントシステムにおいて,アルゴリズムの有効性を評価することを計画している。
関連論文リスト
- Data-Efficient Interactive Multi-Objective Optimization Using ParEGO [6.042269506496206]
多目的最適化は、競合する目的間の最適なトレードオフを提供する非支配的なソリューションの集合を特定することを目的としている。
実践的な応用では、意思決定者(DM)は実装すべき好みに合わせて単一のソリューションを選択する。
そこで本稿では,パレートフロントの最も好まれる領域を,高コストで評価できる2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-12T15:55:51Z) - Direct Preference-Based Evolutionary Multi-Objective Optimization with
Dueling Bandit [6.434590883720791]
本稿では,人間のフィードバックのみに頼って,適合度関数の計算を補助する手法を提案する。
提案手法では,アクティブ・デュエル・バンディット・アルゴリズムにより直接選好学習を行う。
本研究は,従来の手法の限界に対処するだけでなく,最適化問題に対する新たな可能性を明らかにする,インタラクティブな嗜好ベースのMOEAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T13:38:43Z) - Inferring Preferences from Demonstrations in Multi-objective
Reinforcement Learning: A Dynamic Weight-based Approach [0.0]
多目的意思決定において、選好推論は、異なる目的のために意思決定者の選好を推測する過程である。
本研究では,多目的意思決定問題に作用するエージェントの選好を推測する動的重みに基づく選好推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T11:55:07Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Characterization of Constrained Continuous Multiobjective Optimization
Problems: A Performance Space Perspective [0.0]
制約付き多目的最適化問題(CMOP)は不満足に理解されている。
ベンチマークのための適切なCMOPの選択は困難で、正式なバックグラウンドが欠如しています。
本稿では,制約付き多目的最適化のための新しい性能評価手法を提案する。
論文 参考訳(メタデータ) (2023-02-04T14:12:30Z) - An Efficient Multi-Indicator and Many-Objective Optimization Algorithm
based on Two-Archive [7.7415390727490445]
本稿では,2階層型(SRA3)に基づくインジケータに基づく多目的最適化アルゴリズムを提案する。
評価指標の性能に基づいて環境選択の優れた個人を効率よく選び、追加パラメータを設定することなく親の選択に適応パラメータ戦略を利用することができる。
DTLZおよびWFG問題に関する実験により、SRA3は高い効率を維持しつつ、優れた収束性と多様性を有することが示された。
論文 参考訳(メタデータ) (2022-01-14T13:09:50Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z) - Extreme Algorithm Selection With Dyadic Feature Representation [78.13985819417974]
我々は,数千の候補アルゴリズムの固定セットを考慮に入れた,極端なアルゴリズム選択(XAS)の設定を提案する。
我々は、XAS設定に対する最先端のAS技術の適用性を評価し、Dyadic特徴表現を利用したアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-29T09:40:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。