論文の概要: Expert Selection in High-Dimensional Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2010.15599v1
- Date: Mon, 26 Oct 2020 03:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 18:29:58.264941
- Title: Expert Selection in High-Dimensional Markov Decision Processes
- Title(参考訳): 高次元マルコフ決定過程におけるエキスパート選択
- Authors: Vicenc Rubies-Royo, Eric Mazumdar, Roy Dong, Claire Tomlin, and S.
Shankar Sastry
- Abstract要約: 提案手法は,候補となる専門家のポリシーを取り入れ,その間にスイッチを掛けて,優れた専門家を迅速に特定する。
これは、いくつかのエキスパートポリシーが利用可能になり得るアプリケーションで有用であり、基礎となる環境に対して実行時に選択する必要がある。
- 参考スコア(独自算出の注目度): 5.52481973699219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we present a multi-armed bandit framework for online expert
selection in Markov decision processes and demonstrate its use in
high-dimensional settings. Our method takes a set of candidate expert policies
and switches between them to rapidly identify the best performing expert using
a variant of the classical upper confidence bound algorithm, thus ensuring low
regret in the overall performance of the system. This is useful in applications
where several expert policies may be available, and one needs to be selected at
run-time for the underlying environment.
- Abstract(参考訳): 本稿では,マルコフ決定過程におけるオンライン専門家選択のためのマルチアームバンディットフレームワークを提案し,高次元環境での使用例を示す。
提案手法は,従来の上位信頼度拘束アルゴリズムの変種を用いて,最善のエキスパートを迅速に識別するために,候補のエキスパートポリシとそれらの切り替えを行い,システム全体のパフォーマンスの低さを保証した。
これは、いくつかの専門家ポリシーが利用可能なアプリケーションで有用であり、基礎となる環境のために実行時に選択する必要がある。
関連論文リスト
- Stochastic Bilevel Optimization with Lower-Level Contextual Markov Decision Processes [42.22085862132403]
本稿では,2段階決定モデルである文脈マルコフ決定プロセス(BO-CMDP)を用いた二段階最適化を提案する。
BO-CMDP は Stackelberg Game と見ることができ、リーダーとリーダーのコントロールを超えたランダムなコンテキストが(多く) MDP のセットアップを決定する。
本稿では,BO-CMDP の解法として Hyper Policy Descent (HPGD) アルゴリズムを提案し,その収束性を示す。
論文 参考訳(メタデータ) (2024-06-03T17:54:39Z) - Human-Algorithm Collaborative Bayesian Optimization for Engineering Systems [0.0]
我々は、協調ベイズ最適化のためのアプローチを概説することで、データ駆動意思決定ループに人間を再導入する。
我々の手法は、人間は連続的な選択よりも離散的な選択をより効率的に行うことができるという仮説を生かしている。
本稿では, バイオプロセス最適化やリアクトル幾何設計を含む, 応用および数値ケーススタディにまたがるアプローチを実証する。
論文 参考訳(メタデータ) (2024-04-16T23:17:04Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Expert-guided Bayesian Optimisation for Human-in-the-loop Experimental
Design of Known Systems [0.0]
我々は,高スループット(バッチ)ベイズ最適化と人類学的決定理論を併用して,ドメインの専門家が最適実験の選択に影響を及ぼすことを可能にする。
我々の方法論は、人間が連続的な選択よりも個別に選択する方が優れているという仮説を利用しており、専門家が重要な早期決定に影響を及ぼすことを可能にする。
論文 参考訳(メタデータ) (2023-12-05T16:09:31Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Improving Recommendation System Serendipity Through Lexicase Selection [53.57498970940369]
本稿では,レコメンデーションシステムにおけるエコーチャンバーとホモフィリーの存在を測定するための新しいセレンディピティー指標を提案する。
そこで我々は,レキシケース選択と呼ばれる親選択アルゴリズムを採用することにより,よく知られたレコメンデーション手法の多様性保存性の向上を試みる。
以上の結果から,レキシケースの選択とランキングの混合は,パーソナライゼーション,カバレッジ,セレンディピティー・ベンチマークにおいて,純粋にランク付けされている。
論文 参考訳(メタデータ) (2023-05-18T15:37:38Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Dealing with Expert Bias in Collective Decision-Making [4.588028371034406]
本稿では,コンテキスト型マルチアームバンディット問題(CMAB)に基づく新たなアルゴリズムアプローチを提案する。
CMABにインスパイアされた新しいアプローチは、従来の適応アルゴリズムよりも高速に収束しながら、より高い最終性能を達成する。
論文 参考訳(メタデータ) (2021-06-25T10:17:37Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Extreme Algorithm Selection With Dyadic Feature Representation [78.13985819417974]
我々は,数千の候補アルゴリズムの固定セットを考慮に入れた,極端なアルゴリズム選択(XAS)の設定を提案する。
我々は、XAS設定に対する最先端のAS技術の適用性を評価し、Dyadic特徴表現を利用したアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-29T09:40:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。