論文の概要: Learning under Invariable Bayesian Safety
- arxiv url: http://arxiv.org/abs/2006.04497v1
- Date: Mon, 8 Jun 2020 12:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 01:16:43.260333
- Title: Learning under Invariable Bayesian Safety
- Title(参考訳): 可変ベイズ安全下での学習
- Authors: Gal Bahar, Omer Ben-Porat, Kevin Leyton-Brown and Moshe Tennenholtz
- Abstract要約: 私たちは最近、レコメンデーションのために、バンディットのような設定に関する研究に触発されたモデルを採用しています。
各ラウンドで尊重すべき安全制約を導入し、各ラウンドの期待値が所定の閾値を超えることを判断する。
- 参考スコア(独自算出の注目度): 36.96284975799963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent body of work addresses safety constraints in explore-and-exploit
systems. Such constraints arise where, for example, exploration is carried out
by individuals whose welfare should be balanced with overall welfare. In this
paper, we adopt a model inspired by recent work on a bandit-like setting for
recommendations. We contribute to this line of literature by introducing a
safety constraint that should be respected in every round and determines that
the expected value in each round is above a given threshold. Due to our
modeling, the safe explore-and-exploit policy deserves careful planning, or
otherwise, it will lead to sub-optimal welfare. We devise an asymptotically
optimal algorithm for the setting and analyze its instance-dependent
convergence rate.
- Abstract(参考訳): 最近の研究機関は、探索・探索システムの安全性の制約に対処している。
このような制約は、例えば、福祉と全体的な福祉のバランスをとるべき個人が探検を行う場合に生じる。
本稿では,近年のバンディットライクな環境でのレコメンデーションにインスパイアされたモデルを採用する。
我々は,各ラウンドにおいて尊重されるべき安全制約を導入し,各ラウンドの期待値が所定のしきい値を超えていることを決定することにより,この一連の文献に寄与する。
我々のモデリングにより、安全な探索・探索政策は慎重な計画が必要であり、そうでなければ、最適以下の福祉につながるでしょう。
インスタンス依存収束率の設定と解析に漸近的に最適なアルゴリズムを考案する。
関連論文リスト
- Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Strategies for Safe Multi-Armed Bandits with Logarithmic Regret and Risk [45.87122314291089]
本研究は,安全リスク制約下でのマルチアームバンディット問題に対する,自然だが意外な未研究のアプローチについて検討する。
我々は、いかなる違反に対してもソフトに罰則を課すことにより、この安全制約を丸ごと強制する、この設定に対する擬似回帰を定式化する。
これは、総合的な意味でではなく、各ラウンドの安全を維持する必要がある臨床試験のようなシナリオに実践的に関係している。
論文 参考訳(メタデータ) (2022-04-01T22:08:03Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z) - Learning to be safe, in finite time [4.189643331553922]
本稿では,未知の環境での安全な行動の学習を,確率が保証されても,無拘束の探索試験を必要とせずに実現できるという考えを提唱する。
我々は、標準的マルチアームバンディット問題に焦点をあて、安全学習における探索保存トレードオフの本質的な研究を模索する。
論文 参考訳(メタデータ) (2020-10-01T14:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。