論文の概要: Shutdownable Agents through POST-Agency
- arxiv url: http://arxiv.org/abs/2505.20203v1
- Date: Mon, 26 May 2025 16:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.951602
- Title: Shutdownable Agents through POST-Agency
- Title(参考訳): POST-Agencyによるシャットダウン可能なエージェント
- Authors: Elliott Thornley,
- Abstract要約: 同一長軌道(POST)間の優先事項を満たすためにエージェントを訓練することを提案する。
エージェントは、軌道長の確率分布を無視して、期待されたユーティリティを最大化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many fear that future artificial agents will resist shutdown. I present an idea - the POST-Agents Proposal - for ensuring that doesn't happen. I propose that we train agents to satisfy Preferences Only Between Same-Length Trajectories (POST). I then prove that POST - together with other conditions - implies Neutrality+: the agent maximizes expected utility, ignoring the probability distribution over trajectory-lengths. I argue that Neutrality+ keeps agents shutdownable and allows them to be useful.
- Abstract(参考訳): 多くの人は、未来の人工エージェントがシャットダウンに抵抗するのではないかと恐れている。
私はそれが起こらないよう、POST-Agents提案というアイデアを提示します。
そこで我々は,POST(Preferences Only Between Same-Length Trajectories)を満たすようにエージェントを訓練することを提案する。
エージェントは、軌道長の確率分布を無視して、期待された効用を最大化する。
Neutrality+はエージェントをシャットダウンしやすくし、それらが役に立つようにしている、と私は主張する。
関連論文リスト
- On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
しかし、不器用なエージェントや悪意のあるエージェントがシステム全体のパフォーマンスに与える影響は、まだ解明されていない。
本稿では, 種々のシステム構造の耐震性について考察する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Towards shutdownable agents via stochastic choice [39.58317527488534]
グリッドワールドをナビゲートするための単純なエージェントを訓練するために、DReST報酬関数を使用します。
これらのエージェントは、USEFULとNEUTRALで学ぶことができる。
我々の理論的研究は、これらのエージェントが有用でシャットダウン可能であることを示唆している。
論文 参考訳(メタデータ) (2024-06-30T19:16:02Z) - Repeated Contracting with Multiple Non-Myopic Agents: Policy Regret and
Limited Liability [6.512509337399156]
本稿では,各ラウンドにおいて,主役が$k$エージェントの中から適応的に選択する契約条件について検討する。
エージェントは非ミオニックであり、プリンシパルのメカニズムはエージェント間でT$ラウンドの広範なフォームゲームを誘導する。
論文 参考訳(メタデータ) (2024-02-27T01:01:59Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。