論文の概要: Beyond Bayes-optimality: meta-learning what you know you don't know
- arxiv url: http://arxiv.org/abs/2209.15618v1
- Date: Fri, 30 Sep 2022 17:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:39:18.284556
- Title: Beyond Bayes-optimality: meta-learning what you know you don't know
- Title(参考訳): ベイズ最適性を超えて:あなたが知らないことをメタ学習する
- Authors: Jordi Grau-Moya, Gr\'egoire Del\'etang, Markus Kunesch, Tim Genewein,
Elliot Catt, Kevin Li, Anian Ruoss, Chris Cundy, Joel Veness, Jane Wang,
Marcus Hutter, Christopher Summerfield, Shane Legg, Pedro Ortega
- Abstract要約: また,修正メタトレーニングアルゴリズムを用いた最適化問題の結果,リスクやあいまいさの感度も現れることを示した。
提案するメタトレーニングアルゴリズムを,意思決定実験の基礎クラスに暴露されたエージェントに対して実証実験を行った。
- 参考スコア(独自算出の注目度): 27.941629748440224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-training agents with memory has been shown to culminate in Bayes-optimal
agents, which casts Bayes-optimality as the implicit solution to a numerical
optimization problem rather than an explicit modeling assumption. Bayes-optimal
agents are risk-neutral, since they solely attune to the expected return, and
ambiguity-neutral, since they act in new situations as if the uncertainty were
known. This is in contrast to risk-sensitive agents, which additionally exploit
the higher-order moments of the return, and ambiguity-sensitive agents, which
act differently when recognizing situations in which they lack knowledge.
Humans are also known to be averse to ambiguity and sensitive to risk in ways
that aren't Bayes-optimal, indicating that such sensitivity can confer
advantages, especially in safety-critical situations. How can we extend the
meta-learning protocol to generate risk- and ambiguity-sensitive agents? The
goal of this work is to fill this gap in the literature by showing that risk-
and ambiguity-sensitivity also emerge as the result of an optimization problem
using modified meta-training algorithms, which manipulate the
experience-generation process of the learner. We empirically test our proposed
meta-training algorithms on agents exposed to foundational classes of
decision-making experiments and demonstrate that they become sensitive to risk
and ambiguity.
- Abstract(参考訳): メモリを持つメタトレーニングエージェントは、明示的なモデリングの仮定ではなく、数値最適化問題の暗黙の解としてベイズ最適化をキャストするベイズ最適化エージェントで頂点に達することが示されている。
ベイズ・オプティカル・エージェントは、不確実性が分かっているかのように新たな状況で行動するため、単に期待されたリターンに忠実であり、曖昧性中立であるため、リスク中立である。
これは、リターンの高次モーメントを更に活用するリスクに敏感なエージェントや、知識が欠けている状況を認識する際に異なる振舞いをする曖昧さに敏感なエージェントとは対照的である。
人間はまた、あいまいさに逆らって、ベイズ最適でない方法でリスクに敏感であることでも知られており、特に安全クリティカルな状況において、そのような敏感さが利点をもたらすことを示唆している。
メタ学習プロトコルをどのように拡張すればリスクやあいまいさに敏感なエージェントを生成することができるのか?
本研究の目的は,学習者の体験生成過程を制御したメタトレーニングアルゴリズムを用いた最適化問題の結果として,リスクとあいまいさ感が出現することを示し,このギャップを埋めることである。
我々は,提案するメタトレーニングアルゴリズムを,意思決定実験の基礎クラスにさらされたエージェント上で実証的にテストし,リスクや曖昧さに敏感になることを示す。
関連論文リスト
- Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Information-Theoretic Safe Bayesian Optimization [59.758009422067005]
そこでは、未知の(安全でない)制約に反するパラメータを評価することなく、未知の関数を最適化することを目的としている。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2024-02-23T14:31:10Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Dynamic Memory for Interpretable Sequential Optimisation [0.0]
大規模展開に適した非定常性を扱うためのソリューションを提案する。
動的メモリの新たな形態を取り入れた適応型ベイズ学習エージェントを開発した。
自動アズ・ア・サービス(Automatic-as-a-service)の大規模展開のアーキテクチャについて説明する。
論文 参考訳(メタデータ) (2022-06-28T12:29:13Z) - Adaptive Risk Tendency: Nano Drone Navigation in Cluttered Environments
with Distributional Reinforcement Learning [17.940958199767234]
適応型リスク傾向ポリシーを学習するための分散強化学習フレームワークを提案する。
本アルゴリズムは,シミュレーションと実世界の実験の両方において,ハエのリスク感度を調整可能であることを示す。
論文 参考訳(メタデータ) (2022-03-28T13:39:58Z) - Risk Sensitive Model-Based Reinforcement Learning using Uncertainty
Guided Planning [0.0]
本稿では,モデルに基づく強化学習アルゴリズムでリスク感度を向上する。
本研究では,高分散状態予測をもたらす行動系列を解析する不確実性誘導型クロスエントロピー法計画を提案する。
実験では、エージェントが計画中の状態空間の不確実な領域を識別し、エージェントを高い信頼領域内に保持する行動をとる能力を示す。
論文 参考訳(メタデータ) (2021-11-09T07:28:00Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - Bayesian Residual Policy Optimization: Scalable Bayesian Reinforcement
Learning with Clairvoyant Experts [22.87432549580184]
我々はこれを潜在マルコフ決定過程(MDP)上のベイズ強化学習として定式化する。
我々はまず,各潜伏したMDPに対して専門家のアンサンブルを取得し,基本方針を計算するためのアドバイスを融合させる。
次に、アンサンブルの勧告を改善するためにベイズ残留政策を訓練し、不確実性を減らすことを学ぶ。
BRPOは専門家のアンサンブルを著しく改善し、既存の適応RL法を大幅に上回っている。
論文 参考訳(メタデータ) (2020-02-07T23:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。