論文の概要: Sequential Decision Making with Expert Demonstrations under Unobserved Heterogeneity
- arxiv url: http://arxiv.org/abs/2404.07266v1
- Date: Wed, 10 Apr 2024 18:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 15:48:02.424832
- Title: Sequential Decision Making with Expert Demonstrations under Unobserved Heterogeneity
- Title(参考訳): 観測不能な不均一性の下でのエキスパートによる逐次決定
- Authors: Vahid Balazadeh, Keertana Chidambaram, Viet Nguyen, Rahul G. Krishnan, Vasilis Syrgkanis,
- Abstract要約: 本研究では,未観測の文脈情報に基づいて意思決定を行った専門家による補助的な実演を行い,オンライン上での逐次意思決定の課題について検討する。
この設定は、自動運転車、ヘルスケア、金融など、多くのアプリケーション領域で発生します。
本稿では,非パラメトリックな経験的ベイズ手法であるExpers-as-Priorsアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 22.0059059325909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of online sequential decision-making given auxiliary demonstrations from experts who made their decisions based on unobserved contextual information. These demonstrations can be viewed as solving related but slightly different tasks than what the learner faces. This setting arises in many application domains, such as self-driving cars, healthcare, and finance, where expert demonstrations are made using contextual information, which is not recorded in the data available to the learning agent. We model the problem as a zero-shot meta-reinforcement learning setting with an unknown task distribution and a Bayesian regret minimization objective, where the unobserved tasks are encoded as parameters with an unknown prior. We propose the Experts-as-Priors algorithm (ExPerior), a non-parametric empirical Bayes approach that utilizes the principle of maximum entropy to establish an informative prior over the learner's decision-making problem. This prior enables the application of any Bayesian approach for online decision-making, such as posterior sampling. We demonstrate that our strategy surpasses existing behaviour cloning and online algorithms for multi-armed bandits and reinforcement learning, showcasing the utility of our approach in leveraging expert demonstrations across different decision-making setups.
- Abstract(参考訳): 本研究では,未観測の文脈情報に基づいて意思決定を行った専門家による補助的な実演を行い,オンライン上での逐次意思決定の課題について検討する。
これらのデモンストレーションは、学習者が直面するものとは、関連するが少し異なるタスクを解決していると見なすことができる。
この設定は、自動運転車、ヘルスケア、金融など、多くのアプリケーションドメインで発生し、専門家によるデモンストレーションは、学習エージェントが利用可能なデータに記録されていないコンテキスト情報を使って行われる。
本研究では,未知のタスク分布を持つゼロショットメタ強化学習環境と,未観測タスクを未知の先行パラメータとして符号化したベイズ後悔最小化目標とをモデル化する。
本稿では,最大エントロピーの原理を利用して,学習者の意思決定問題に対する情報的先行性を確立する非パラメトリックなベイズ手法であるExpers-as-Priorsアルゴリズム(ExPerior)を提案する。
この方法では、後続サンプリングのようなオンライン意思決定にベイズ的アプローチを適用することができる。
当社の戦略は,複数武器の盗賊と強化学習のための既存の行動クローニングとオンラインアルゴリズムを超越し,さまざまな意思決定環境における専門家による実演の活用におけるアプローチの有用性を示すものである。
関連論文リスト
- Learning Utilities from Demonstrations in Markov Decision Processes [18.205765143671858]
本稿では,実用機能を通じてエージェントのリスク態度を明確に表現する,マルコフ決定過程(MDP)の行動モデルを提案する。
そこで我々は,MDPにおける実演から実用機能を通じて符号化された,観察対象者のリスク態度を推定するタスクとして,ユーティリティ学習問題を定義した。
我々は, UL を有限データ型で証明可能な2つのアルゴリズムを考案し, サンプルの複雑さを解析する。
論文 参考訳(メタデータ) (2024-09-25T21:01:15Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Decision Rule Elicitation for Domain Adaptation [93.02675868486932]
ヒトインザループ機械学習は、専門家からラベルを引き出すために人工知能(AI)で広く使用されています。
この作業では、専門家が意思決定を説明する決定ルールを作成できるようにします。
決定規則の適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。
論文 参考訳(メタデータ) (2021-02-23T08:07:22Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Bayesian Experience Reuse for Learning from Multiple Demonstrators [24.489002406693128]
デモンストレーション(LfD)からの学習は、専門家によるデモンストレーションを取り入れることで、学習エージェントの探索効率を向上させる。
本研究では、正規逆ガンマ前駆体を用いて、ソースおよびターゲットタスク関数の不確かさをモデル化することで、この問題に対処する。
我々は、この学習された信念を用いて、解がエキスパートモデルに確率分布をもたらす二次的プログラミング問題を導出する。
論文 参考訳(メタデータ) (2020-06-10T08:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。