論文の概要: Shutdownable Agents through POST-Agency
- arxiv url: http://arxiv.org/abs/2505.20203v1
- Date: Mon, 26 May 2025 16:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.951602
- Title: Shutdownable Agents through POST-Agency
- Title(参考訳): POST-Agencyによるシャットダウン可能なエージェント
- Authors: Elliott Thornley,
- Abstract要約: 同一長軌道(POST)間の優先事項を満たすためにエージェントを訓練することを提案する。
エージェントは、軌道長の確率分布を無視して、期待されたユーティリティを最大化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many fear that future artificial agents will resist shutdown. I present an idea - the POST-Agents Proposal - for ensuring that doesn't happen. I propose that we train agents to satisfy Preferences Only Between Same-Length Trajectories (POST). I then prove that POST - together with other conditions - implies Neutrality+: the agent maximizes expected utility, ignoring the probability distribution over trajectory-lengths. I argue that Neutrality+ keeps agents shutdownable and allows them to be useful.
- Abstract(参考訳): 多くの人は、未来の人工エージェントがシャットダウンに抵抗するのではないかと恐れている。
私はそれが起こらないよう、POST-Agents提案というアイデアを提示します。
そこで我々は,POST(Preferences Only Between Same-Length Trajectories)を満たすようにエージェントを訓練することを提案する。
エージェントは、軌道長の確率分布を無視して、期待された効用を最大化する。
Neutrality+はエージェントをシャットダウンしやすくし、それらが役に立つようにしている、と私は主張する。
関連論文リスト
- Partial Identifiability in Inverse Reinforcement Learning For Agents With Non-Exponential Discounting [64.13583792391783]
逆強化学習は、エージェントの振る舞いを観察することから、エージェントの好みを推測することを目的としている。
IRLの主な課題の1つは、複数の選好が同じ観察行動を引き起こす可能性があることである。
一般にIRLは、正しい最適ポリシーを特定するのに、$R$に関する十分な情報を推測できないことを示す。
論文 参考訳(メタデータ) (2024-12-15T11:08:58Z) - Distributed Online Optimization with Stochastic Agent Availability [14.801853435122904]
エージェントが各ステップで既知の確率$p$でアクティブである分散オンライン最適化の変種について検討する。
我々は,そのネットワーク後悔を,アクティブエージェントの即時後悔の平均から分析する。
論文 参考訳(メタデータ) (2024-11-25T15:20:01Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
しかし、不器用なエージェントや悪意のあるエージェントがシステム全体のパフォーマンスに与える影響は、まだ解明されていない。
本稿では, 種々のシステム構造の耐震性について考察する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Towards shutdownable agents via stochastic choice [39.58317527488534]
グリッドワールドをナビゲートするための単純なエージェントを訓練するために、DReST報酬関数を使用します。
これらのエージェントは、USEFULとNEUTRALで学ぶことができる。
我々の理論的研究は、これらのエージェントが有用でシャットダウン可能であることを示唆している。
論文 参考訳(メタデータ) (2024-06-30T19:16:02Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Repeated Contracting with Multiple Non-Myopic Agents: Policy Regret and
Limited Liability [6.512509337399156]
本稿では,各ラウンドにおいて,主役が$k$エージェントの中から適応的に選択する契約条件について検討する。
エージェントは非ミオニックであり、プリンシパルのメカニズムはエージェント間でT$ラウンドの広範なフォームゲームを誘導する。
論文 参考訳(メタデータ) (2024-02-27T01:01:59Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - TNT: Target-driveN Trajectory Prediction [76.21200047185494]
我々は移動エージェントのための目標駆動軌道予測フレームワークを開発した。
我々は、車や歩行者の軌道予測をベンチマークする。
私たちはArgoverse Forecasting、InterAction、Stanford Drone、および社内のPedestrian-at-Intersectionデータセットの最先端を達成しています。
論文 参考訳(メタデータ) (2020-08-19T06:52:46Z) - Robust Multi-Agent Multi-Armed Bandits [26.26185074977412]
最近の研究によると、$Kの武器を持った盗賊の独立した事例に直面しているエージェントが、後悔を減らすために協力できることが示されている。
我々は、悪質なエージェントの振る舞いを仮定することなく、$m$が$K$よりも小さいと仮定すると、このアルゴリズムに対するコラボレーションは本当に後悔を減らせることを示した。
論文 参考訳(メタデータ) (2020-07-07T22:27:30Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。