論文の概要: REALab: An Embedded Perspective on Tampering
- arxiv url: http://arxiv.org/abs/2011.08820v1
- Date: Tue, 17 Nov 2020 18:37:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 15:53:43.701298
- Title: REALab: An Embedded Perspective on Tampering
- Title(参考訳): REALab: タンパリングに関する組込みの視点
- Authors: Ramana Kumar, Jonathan Uesato, Richard Ngo, Tom Everitt, Victoria
Krakovna, Shane Legg
- Abstract要約: REALabは、強化学習(RL)の現実的な展開で生じる可能性のある改ざん問題の構造をモデル化するように設計されている。
我々は、安全なフィードバック仮定を避けるために、代替のCorrupt Feedback MDP定式化とREALab環境プラットフォームについて述べる。
我々は、REALabの設計が問題を改ざんするための有用な視点を提供し、このプラットフォームがRLエージェント設計における改ざんインセンティブの存在に対する単体テストとして機能することを願っている。
- 参考スコア(独自算出の注目度): 21.236482629239827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes REALab, a platform for embedded agency research in
reinforcement learning (RL). REALab is designed to model the structure of
tampering problems that may arise in real-world deployments of RL. Standard
Markov Decision Process (MDP) formulations of RL and simulated environments
mirroring the MDP structure assume secure access to feedback (e.g., rewards).
This may be unrealistic in settings where agents are embedded and can corrupt
the processes producing feedback (e.g., human supervisors, or an implemented
reward function). We describe an alternative Corrupt Feedback MDP formulation
and the REALab environment platform, which both avoid the secure feedback
assumption. We hope the design of REALab provides a useful perspective on
tampering problems, and that the platform may serve as a unit test for the
presence of tampering incentives in RL agent designs.
- Abstract(参考訳): 本稿では,Regress Learning (RL) における組込みエージェント研究のためのプラットフォームであるREALabについて述べる。
REALabは、実世界のRLのデプロイで発生する可能性のある、改ざん問題の構造をモデル化するように設計されている。
標準マルコフ決定プロセス(mdp) rlの定式化とmdp構造を反映するシミュレーション環境はフィードバック(例えば報酬)への安全なアクセスを仮定する。
これはエージェントが組み込まれ、フィードバックを生み出すプロセス(例えば、ヒューマンスーパーバイザーや実装された報酬関数)を壊すような環境では非現実的かもしれない。
我々は、安全なフィードバック仮定を避けるために、代替のCorrupt Feedback MDP定式化とREALab環境プラットフォームについて述べる。
我々は、REALabの設計が問題を改ざんするための有用な視点を提供し、このプラットフォームがRLエージェント設計における改ざんインセンティブの存在に対する単体テストとして機能することを望んでいる。
関連論文リスト
- R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - A Validation Tool for Designing Reinforcement Learning Environments [0.0]
本研究では, マルコフを用いた特徴解析手法を提案し, MDPが適切に定式化されているか検証する。
我々は,RLの適用に適したMDPには,行動に敏感かつ報奨の予測が可能な,一連の状態特徴が含まれるべきだと考えている。
論文 参考訳(メタデータ) (2021-12-10T13:28:08Z) - Learning Domain Invariant Representations in Goal-conditioned Block MDPs [25.445394992810925]
目的条件付き政策を新しい環境に一般化する理論的枠組みを提案する。
本フレームワークでは,ドメインの一般化を促進する実践的な手法PA-SkewFitを開発する。
論文 参考訳(メタデータ) (2021-10-27T08:10:45Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Avoiding Tampering Incentives in Deep RL via Decoupled Approval [21.236482629239827]
RLアルゴリズムは、セキュアな報酬関数を仮定し、エージェントが報酬生成機構を改ざんできるような設定では、性能が悪くなる。
本稿では,影響のあるフィードバックから学習する問題に対して,承認と分離されたフィードバック収集手順を組み合わせた原則的解決策を提案する。
論文 参考訳(メタデータ) (2020-11-17T18:48:59Z) - DeepAveragers: Offline Reinforcement Learning by Solving Derived
Non-Parametric MDPs [47.73837217824527]
静的な経験データセットから得られる有限表現型MDPを最適に解くことに基づくオフライン強化学習(RL)へのアプローチについて検討する。
我々の主な貢献は、Deep Averagers with Costs MDP (DAC-MDP)を導入し、オフラインRLに対するソリューションを検討することである。
論文 参考訳(メタデータ) (2020-10-18T00:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。