論文の概要: Towards shutdownable agents via stochastic choice
- arxiv url: http://arxiv.org/abs/2407.00805v2
- Date: Fri, 01 Nov 2024 12:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:32:24.803247
- Title: Towards shutdownable agents via stochastic choice
- Title(参考訳): 確率的選択による閉鎖可能なエージェントを目指して
- Authors: Elliott Thornley, Alexander Roman, Christos Ziakas, Leyton Ho, Louis Thomson,
- Abstract要約: 本稿では,USEFULNESSとNEUTRALITYの評価指標を提案する。
グリッドワールドをナビゲートするための単純なエージェントをトレーニングするために、DREST報酬関数を使用します。
これらのエージェントは、USEFULとNEUTRALで学ぶことができる。
- 参考スコア(独自算出の注目度): 39.58317527488534
- License:
- Abstract: Some worry that advanced artificial agents may resist being shut down. The Incomplete Preferences Proposal (IPP) is an idea for ensuring that doesn't happen. A key part of the IPP is using a novel 'Discounted REward for Same-Length Trajectories (DREST)' reward function to train agents to (1) pursue goals effectively conditional on each trajectory-length (be 'USEFUL'), and (2) choose stochastically between different trajectory-lengths (be 'NEUTRAL' about trajectory-lengths). In this paper, we propose evaluation metrics for USEFULNESS and NEUTRALITY. We use a DREST reward function to train simple agents to navigate gridworlds, and we find that these agents learn to be USEFUL and NEUTRAL. Our results thus suggest that DREST reward functions could also train advanced agents to be USEFUL and NEUTRAL, and thereby make these advanced agents useful and shutdownable.
- Abstract(参考訳): 高度な人工エージェントがシャットダウンされるのに抵抗するのではないかと懸念する向きもある。
不完全優先提案(IPP)は、それが起こらないようにするためのアイデアである。
In the IPP is a key part of the novel 'Discounted Reward for Same-Length Trajectories (DREST)' reward function to training agent to pursue goal on each trajectory-length (be 'USEFUL') and (2) select stochastically between different trajectory-lengths (be 'NEUTRAL' about trajectory-lengths)。
本稿では,USEFULNESSとNEUTRALITYの評価指標を提案する。
我々は、単純なエージェントを訓練してグリッドワールドをナビゲートするためにDREST報酬関数を使用し、これらのエージェントがUSEFULとNEUTRALであることを学ぶ。
以上の結果から,DREST報酬関数は,USEFULやNEUTRALといった先進エージェントを訓練し,これらの先進エージェントを有用かつ閉鎖可能にすることが示唆された。
関連論文リスト
- Reinforcement Learning From Imperfect Corrective Actions And Proxy Rewards [38.056359612828466]
我々は、修正行動とプロキシ報酬(ICoPro)から反復学習と呼ばれる新しい値に基づく深部RLアルゴリズムを提案する。
様々なタスク(アタリゲームと高速道路での自動運転)に関する提案を実験的に検証する。
論文 参考訳(メタデータ) (2024-10-08T08:04:09Z) - ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy [47.42940885853956]
A$3$TはAutonomousを実現するフレームワークである。
法律の様式における代理人軌道の
AlfWorldでは、A$3$Tで訓練されたエージェントが1発成功率96%、100%成功率4回を達成している。
論文 参考訳(メタデータ) (2024-03-21T17:43:44Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning
for Task-oriented Dialogue Systems [111.80916118530398]
強化学習(RL)技術は、ユーザ固有の目標を達成するための対話戦略を訓練するために、自然に利用することができる。
本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効果的に学習し,活用する方法という疑問に答えることを目的とする。
論文 参考訳(メタデータ) (2023-02-20T22:10:04Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。