Fugu-MT 論文翻訳(概要): Preference Inference from Demonstration in Multi-objective Multi-agent Decision Making

論文の概要: Preference Inference from Demonstration in Multi-objective Multi-agent Decision Making

arxiv url: http://arxiv.org/abs/2304.14126v1
Date: Thu, 27 Apr 2023 12:19:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-28 13:27:48.016672
Title: Preference Inference from Demonstration in Multi-objective Multi-agent Decision Making
Title（参考訳）: 多目的マルチエージェント意思決定における実証からの推定
Authors: Junlin Lu
Abstract要約: 本稿では,最適あるいは準最適のいずれかから線形選好重みを推定するアルゴリズムを提案する。実験結果から, ベースラインアルゴリズムと比較して有意な改善が得られた。今後,マルチエージェントシステムにおけるアルゴリズムの有効性を評価することを計画している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: It is challenging to quantify numerical preferences for different objectives in a multi-objective decision-making problem. However, the demonstrations of a user are often accessible. We propose an algorithm to infer linear preference weights from either optimal or near-optimal demonstrations. The algorithm is evaluated in three environments with two baseline methods. Empirical results demonstrate significant improvements compared to the baseline algorithms, in terms of both time requirements and accuracy of the inferred preferences. In future work, we plan to evaluate the algorithm's effectiveness in a multi-agent system, where one of the agents is enabled to infer the preferences of an opponent using our preference inference algorithm.
Abstract（参考訳）: 多目的意思決定問題において、異なる目的に対する数値的選好を定量化することは困難である。しかし、ユーザのデモは、しばしばアクセス可能である。最適または近最適のデモンストレーションから線形選好重みを推定するアルゴリズムを提案する。このアルゴリズムは2つのベースライン法を用いて3つの環境で評価される。実験結果から,推定された選好の時間要件と精度の両面で,ベースラインアルゴリズムと比較して有意な改善が得られた。今後は,エージェントの1つが選好推論アルゴリズムを用いて相手の選好を推測できるマルチエージェントシステムにおいて,アルゴリズムの有効性を評価することを計画している。

関連論文リスト

A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。最適化に基づく最適化手法であるMERITを導入する。 MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文参考訳（メタデータ） (2025-06-23T19:59:30Z)
Inferring Preferences from Demonstrations in Multi-objective Reinforcement Learning [2.9845592719739127]
本研究では,動的重みに基づく選好推定アルゴリズムを提案する。デモから多目的意思決定問題に作用するエージェントの選好を推測することができる。
論文参考訳（メタデータ） (2024-09-30T12:49:10Z)
An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。 2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文参考訳（メタデータ） (2024-09-04T14:36:20Z)
Data-Efficient Interactive Multi-Objective Optimization Using ParEGO [6.042269506496206]
多目的最適化は、競合する目的間の最適なトレードオフを提供する非支配的なソリューションの集合を特定することを目的としている。実践的な応用では、意思決定者(DM)は実装すべき好みに合わせて単一のソリューションを選択する。そこで本稿では,パレートフロントの最も好まれる領域を,高コストで評価できる2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-12T15:55:51Z)
Inferring Preferences from Demonstrations in Multi-objective Reinforcement Learning: A Dynamic Weight-based Approach [0.0]
多目的意思決定において、選好推論は、異なる目的のために意思決定者の選好を推測する過程である。本研究では,多目的意思決定問題に作用するエージェントの選好を推測する動的重みに基づく選好推論アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-27T11:55:07Z)
Representation Learning with Multi-Step Inverse Kinematics: An Efficient and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文参考訳（メタデータ） (2023-04-12T14:51:47Z)
Bi-objective Ranking and Selection Using Stochastic Kriging [0.0]
両目的のランク付けと選択の問題について検討し,その2つの目的が不確実性をもって観測された。そこで本研究では,競合する解に対して逐次サンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。実験結果から,提案手法は標準的なアロケーション手法よりも優れており,また,よく知られた最先端のアルゴリズムも優れていることがわかった。
論文参考訳（メタデータ） (2022-09-05T23:51:07Z)
An Efficient Multi-Indicator and Many-Objective Optimization Algorithm based on Two-Archive [7.7415390727490445]
本稿では,2階層型(SRA3)に基づくインジケータに基づく多目的最適化アルゴリズムを提案する。評価指標の性能に基づいて環境選択の優れた個人を効率よく選び、追加パラメータを設定することなく親の選択に適応パラメータ戦略を利用することができる。 DTLZおよびWFG問題に関する実験により、SRA3は高い効率を維持しつつ、優れた収束性と多様性を有することが示された。
論文参考訳（メタデータ） (2022-01-14T13:09:50Z)
Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。局所探索のための政策勾配は、しばしばランダムな摂動から得られる。目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-22T16:07:02Z)
Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-15T10:08:39Z)
Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文参考訳（メタデータ） (2020-02-26T16:19:09Z)
Extreme Algorithm Selection With Dyadic Feature Representation [78.13985819417974]
我々は,数千の候補アルゴリズムの固定セットを考慮に入れた,極端なアルゴリズム選択(XAS)の設定を提案する。我々は、XAS設定に対する最先端のAS技術の適用性を評価し、Dyadic特徴表現を利用したアプローチを提案する。
論文参考訳（メタデータ） (2020-01-29T09:40:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。