論文の概要: RL agents Implicitly Learning Human Preferences
- arxiv url: http://arxiv.org/abs/2002.06137v1
- Date: Fri, 14 Feb 2020 17:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 03:54:59.710243
- Title: RL agents Implicitly Learning Human Preferences
- Title(参考訳): 人間の嗜好を学習するRLエージェント
- Authors: Nevan Wichers
- Abstract要約: RLエージェントは, 環境下での人間の嗜好を暗黙的に学習する。
RLエージェントのニューラルネットワークのアクティベーションに基づいて、シミュレーションされた人間の好みが満たされているかどうかを予測するために、分類器を訓練する。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the real world, RL agents should be rewarded for fulfilling human
preferences. We show that RL agents implicitly learn the preferences of humans
in their environment. Training a classifier to predict if a simulated human's
preferences are fulfilled based on the activations of a RL agent's neural
network gets .93 AUC. Training a classifier on the raw environment state gets
only .8 AUC. Training the classifier off of the RL agent's activations also
does much better than training off of activations from an autoencoder. The
human preference classifier can be used as the reward function of an RL agent
to make RL agent more beneficial for humans.
- Abstract(参考訳): 現実世界では、RLエージェントは人間の嗜好を満たすことで報われるべきである。
RLエージェントは, 環境下での人間の嗜好を暗黙的に学習する。
シミュレーションされた人間の好みがRLエージェントのニューラルネットワークの活性化に基づいて満たされるかどうかを予測するために分類器を訓練する。
生の環境状態における分類器のトレーニングは .8 auc となる。
RLエージェントのアクティベーションから分類器をトレーニングするのも、オートエンコーダからのアクティベーションのトレーニングよりはるかに優れている。
ヒトの嗜好分類器は、RL剤の報酬機能として使用することができ、RL剤をヒトにとってより有益にすることができる。
関連論文リスト
- DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - Ego-Foresight: Agent Visuomotor Prediction as Regularization for RL [34.6883445484835]
エゴフォレスト(Ego-Foresight)は、エージェントと環境を移動と予測に基づいて切り離す自己管理手法である。
本稿では,エージェントのビジュモータ予測がRLアルゴリズムの正規化に役立ち,動作が予測可能な範囲内に留まるよう促すことを示す。
Ego-ForesightとモデルフリーなRLアルゴリズムを統合し、ロボット操作のシミュレーションを解くことで、効率が23%向上し、性能が8%向上した。
論文 参考訳(メタデータ) (2024-05-27T13:32:43Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - DIP-RL: Demonstration-Inferred Preference Learning in Minecraft [0.5669790037378094]
機械学習では、アルゴリズムエージェントが報酬信号の形式でフィードバックを受けながら環境と対話することを学ぶ。
本稿では,人間の実演を3つの異なる方法で活用するアルゴリズムであるDIP-RLを提案する。
Minecraftにおける木切り作業におけるDIP-RLの評価を行った。
論文 参考訳(メタデータ) (2023-07-22T20:05:31Z) - Int-HRL: Towards Intention-based Hierarchical Reinforcement Learning [23.062590084580542]
Int-HRL:人間の視線から推測される意図に基づくサブゴールを持つ階層的RL。
本評価の結果,手作りサブゴールを自動抽出した意図で置き換えることにより,従来の方法よりもはるかに効率のよいHRLエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2023-06-20T12:12:16Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - DDPG car-following model with real-world human driving experience in
CARLA [0.0]
そこで本研究では,現実世界の人間の運転から学習し,純粋なDRLエージェントよりも優れた性能を実現する2段階のDeep Reinforcement Learning(DRL)手法を提案する。
評価のために、提案した2段DRLエージェントと純粋なDRLエージェントを比較するために、異なる実世界の運転シナリオを設計した。
論文 参考訳(メタデータ) (2021-12-29T15:22:31Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。