論文の概要: Inferring Preferences from Demonstrations in Multi-objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.20258v1
- Date: Mon, 30 Sep 2024 12:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 11:58:29.523294
- Title: Inferring Preferences from Demonstrations in Multi-objective Reinforcement Learning
- Title(参考訳): 多目的強化学習における実証からの評価
- Authors: Junlin Lu, Patrick Mannion, Karl Mason,
- Abstract要約: 本研究では,動的重みに基づく選好推定アルゴリズムを提案する。
デモから多目的意思決定問題に作用するエージェントの選好を推測することができる。
- 参考スコア(独自算出の注目度): 2.9845592719739127
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many decision-making problems feature multiple objectives where it is not always possible to know the preferences of a human or agent decision-maker for different objectives. However, demonstrated behaviors from the decision-maker are often available. This research proposes a dynamic weight-based preference inference (DWPI) algorithm that can infer the preferences of agents acting in multi-objective decision-making problems from demonstrations. The proposed algorithm is evaluated on three multi-objective Markov decision processes: Deep Sea Treasure, Traffic, and Item Gathering, and is compared to two existing preference inference algorithms. Empirical results demonstrate significant improvements compared to the baseline algorithms, in terms of both time efficiency and inference accuracy. The DWPI algorithm maintains its performance when inferring preferences for sub-optimal demonstrations. Moreover, the DWPI algorithm does not necessitate any interactions with the user during inference - only demonstrations are required. We provide a correctness proof and complexity analysis of the algorithm and statistically evaluate the performance under different representation of demonstrations.
- Abstract(参考訳): 多くの意思決定問題は、異なる目的のために人間やエージェントの意思決定者の好みを知ることが常に可能であるとは限らない複数の目的を特徴としている。
しかし、意思決定者からの実証された行動はしばしば利用可能である。
本研究では,実演から多目的意思決定問題に作用するエージェントの嗜好を推定できる動的重みに基づく選好推定アルゴリズムを提案する。
提案アルゴリズムは, 深海宝物, 交通, アイテム収集の3つの多目的マルコフ決定プロセスを用いて評価し, 既存の選好推論アルゴリズムと比較した。
実験結果から,時間効率と推論精度の両面で,ベースラインアルゴリズムと比較して有意な改善が得られた。
DWPIアルゴリズムは、準最適演示の選好を推測する際にその性能を維持する。
さらに、DWPIアルゴリズムは、推論中にユーザーとのインタラクションを一切必要としない。
本稿では,アルゴリズムの正確性証明と複雑性解析を行い,実演の異なる表現下での性能を統計的に評価する。
関連論文リスト
- Comparative Analysis of Demonstration Selection Algorithms for LLM In-Context Learning [18.58278188791548]
コンテキスト内学習は、LLM(Large Language Models)が追加のトレーニングなしで新しいタスクを適応するのに役立ちます。
提案された実演選択アルゴリズムにもかかわらず、効率と有効性はまだ不明である。
この明快さの欠如は、これらのアルゴリズムを現実世界のシナリオに適用することを困難にしている。
論文 参考訳(メタデータ) (2024-10-30T15:11:58Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Preference Inference from Demonstration in Multi-objective Multi-agent
Decision Making [0.0]
本稿では,最適あるいは準最適のいずれかから線形選好重みを推定するアルゴリズムを提案する。
実験結果から, ベースラインアルゴリズムと比較して有意な改善が得られた。
今後,マルチエージェントシステムにおけるアルゴリズムの有効性を評価することを計画している。
論文 参考訳(メタデータ) (2023-04-27T12:19:28Z) - Inferring Preferences from Demonstrations in Multi-objective
Reinforcement Learning: A Dynamic Weight-based Approach [0.0]
多目的意思決定において、選好推論は、異なる目的のために意思決定者の選好を推測する過程である。
本研究では,多目的意思決定問題に作用するエージェントの選好を推測する動的重みに基づく選好推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T11:55:07Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Uncertainty-Aware Search Framework for Multi-Objective Bayesian
Optimization [40.40632890861706]
高価な関数評価を用いたマルチオブジェクト(MO)ブラックボックス最適化の問題点を考察する。
UeMOと呼ばれる新しい不確実性対応検索フレームワークを提案し、評価のための入力シーケンスを効率的に選択する。
論文 参考訳(メタデータ) (2022-04-12T16:50:48Z) - An Efficient Multi-Indicator and Many-Objective Optimization Algorithm
based on Two-Archive [7.7415390727490445]
本稿では,2階層型(SRA3)に基づくインジケータに基づく多目的最適化アルゴリズムを提案する。
評価指標の性能に基づいて環境選択の優れた個人を効率よく選び、追加パラメータを設定することなく親の選択に適応パラメータ戦略を利用することができる。
DTLZおよびWFG問題に関する実験により、SRA3は高い効率を維持しつつ、優れた収束性と多様性を有することが示された。
論文 参考訳(メタデータ) (2022-01-14T13:09:50Z) - A survey on multi-objective hyperparameter optimization algorithms for
Machine Learning [62.997667081978825]
本稿では,多目的HPOアルゴリズムに関する2014年から2020年にかけての文献を体系的に調査する。
メタヒューリスティック・ベース・アルゴリズムとメタモデル・ベース・アルゴリズム,および両者を混合したアプローチを区別する。
また,多目的HPO法と今後の研究方向性を比較するための品質指標についても論じる。
論文 参考訳(メタデータ) (2021-11-23T10:22:30Z) - Extreme Algorithm Selection With Dyadic Feature Representation [78.13985819417974]
我々は,数千の候補アルゴリズムの固定セットを考慮に入れた,極端なアルゴリズム選択(XAS)の設定を提案する。
我々は、XAS設定に対する最先端のAS技術の適用性を評価し、Dyadic特徴表現を利用したアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-29T09:40:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。