論文の概要: Sequential Decision Making with Expert Demonstrations under Unobserved Heterogeneity
- arxiv url: http://arxiv.org/abs/2404.07266v2
- Date: Mon, 04 Nov 2024 09:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:38:10.372017
- Title: Sequential Decision Making with Expert Demonstrations under Unobserved Heterogeneity
- Title(参考訳): 観測不能な不均一性の下でのエキスパートによる逐次決定
- Authors: Vahid Balazadeh, Keertana Chidambaram, Viet Nguyen, Rahul G. Krishnan, Vasilis Syrgkanis,
- Abstract要約: 本研究では,未観測の文脈情報に基づいて意思決定を行った専門家による補助的な実演を行い,オンライン上での逐次意思決定の課題について検討する。
この設定は、自動運転車、ヘルスケア、金融など、多くのアプリケーション領域で発生します。
本稿では,学習者の意思決定問題に対する情報的事前分布を確立するために,Expers-as-Priorsアルゴリズム(ExPerior)を提案する。
- 参考スコア(独自算出の注目度): 22.0059059325909
- License:
- Abstract: We study the problem of online sequential decision-making given auxiliary demonstrations from experts who made their decisions based on unobserved contextual information. These demonstrations can be viewed as solving related but slightly different problems than what the learner faces. This setting arises in many application domains, such as self-driving cars, healthcare, and finance, where expert demonstrations are made using contextual information, which is not recorded in the data available to the learning agent. We model the problem as zero-shot meta-reinforcement learning with an unknown distribution over the unobserved contextual variables and a Bayesian regret minimization objective, where the unobserved variables are encoded as parameters with an unknown prior. We propose the Experts-as-Priors algorithm (ExPerior), an empirical Bayes approach that utilizes expert data to establish an informative prior distribution over the learner's decision-making problem. This prior distribution enables the application of any Bayesian approach for online decision-making, such as posterior sampling. We demonstrate that our strategy surpasses existing behaviour cloning, online, and online-offline baselines for multi-armed bandits, Markov decision processes (MDPs), and partially observable MDPs, showcasing the broad reach and utility of ExPerior in using expert demonstrations across different decision-making setups.
- Abstract(参考訳): 本研究では,未観測の文脈情報に基づいて意思決定を行った専門家による補助的な実演を行い,オンライン上での逐次意思決定の課題について検討する。
これらのデモンストレーションは、関連するが学習者が直面している問題とわずかに異なる問題の解決と見なすことができる。
この設定は、自動運転車、ヘルスケア、金融など、多くのアプリケーションドメインで発生し、専門家によるデモンストレーションは、学習エージェントが利用可能なデータに記録されていないコンテキスト情報を使って行われる。
本研究では,未観測の文脈変数に対する未知分布を持つゼロショットメタ強化学習と,未観測の変数を未知の先行パラメータとして符号化するベイズ後悔最小化目標をモデル化する。
本研究では,経験的ベイズ手法であるExperior-as-Priorsアルゴリズムを提案する。
この事前分布は、後続サンプリングのようなオンライン意思決定にベイズ的アプローチを適用することを可能にする。
我々は,マルチアームバンディット,マルコフ決定プロセス(MDP),および部分的に観察可能なMDPに対して,既存の行動クローン,オンラインおよびオンラインオフラインベースラインを越え,ExPeriorの幅広い範囲と有用性を示す。
関連論文リスト
- Learning Utilities from Demonstrations in Markov Decision Processes [18.205765143671858]
本稿では,実用機能を通じてエージェントのリスク態度を明確に表現する,マルコフ決定過程(MDP)の行動モデルを提案する。
そこで我々は,MDPにおける実演から実用機能を通じて符号化された,観察対象者のリスク態度を推定するタスクとして,ユーティリティ学習問題を定義した。
我々は, UL を有限データ型で証明可能な2つのアルゴリズムを考案し, サンプルの複雑さを解析する。
論文 参考訳(メタデータ) (2024-09-25T21:01:15Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Decision Rule Elicitation for Domain Adaptation [93.02675868486932]
ヒトインザループ機械学習は、専門家からラベルを引き出すために人工知能(AI)で広く使用されています。
この作業では、専門家が意思決定を説明する決定ルールを作成できるようにします。
決定規則の適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。
論文 参考訳(メタデータ) (2021-02-23T08:07:22Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Bayesian Experience Reuse for Learning from Multiple Demonstrators [24.489002406693128]
デモンストレーション(LfD)からの学習は、専門家によるデモンストレーションを取り入れることで、学習エージェントの探索効率を向上させる。
本研究では、正規逆ガンマ前駆体を用いて、ソースおよびターゲットタスク関数の不確かさをモデル化することで、この問題に対処する。
我々は、この学習された信念を用いて、解がエキスパートモデルに確率分布をもたらす二次的プログラミング問題を導出する。
論文 参考訳(メタデータ) (2020-06-10T08:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。