論文の概要: The Shutdown Problem: Three Theorems
- arxiv url: http://arxiv.org/abs/2403.04471v1
- Date: Thu, 7 Mar 2024 13:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:04:54.734480
- Title: The Shutdown Problem: Three Theorems
- Title(参考訳): シャットダウン問題:3つの定理
- Authors: Elliott Thornley
- Abstract要約: シャットダウンボタンを押したときにシャットダウンする人工エージェントを設計する際の問題点を説明します。
私は難易度を正確にする3つの定理を証明します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: I explain the shutdown problem: the problem of designing artificial agents
that (1) shut down when a shutdown button is pressed, (2) don't try to prevent
or cause the pressing of the shutdown button, and (3) otherwise pursue goals
competently. I prove three theorems that make the difficulty precise. These
theorems show that agents satisfying some innocuous-seeming conditions will
often try to prevent or cause the pressing of the shutdown button, even in
cases where it's costly to do so. And patience trades off against
shutdownability: the more patient an agent, the greater the costs that agent is
willing to incur to manipulate the shutdown button. I end by noting that these
theorems can guide our search for solutions.
- Abstract(参考訳): シャットダウン問題は,(1)シャットダウンボタンを押したときにシャットダウンする,(2)シャットダウンボタンを押したり押したりしない,(3)目標を有能に追求する,人工エージェントを設計する,という問題である。
私は難易度を正確にする3つの定理を証明します。
これらの定理は、ある無害な条件を満たすエージェントが、たとえコストがかかる場合であっても、シャットダウンボタンの押圧を防ぎ、引き起こそうとすることを示している。
そして忍耐はシャットダウン性に反する: エージェントが忍耐強くなればなるほど、エージェントがシャットダウンボタンを操作しようとするコストが大きくなる。
最後に、これらの定理は解の探索を導くことができることに注意する。
関連論文リスト
- The AI off-switch problem as a signalling game: bounded rationality and incomparability [45.76759085727843]
我々は、人間の意思決定者がAIエージェントにその好みを伝える合図ゲームとしてオフスイッチ問題をモデル化する。
我々は、AIシステムがオフスウィッチを無効にすることを避けるために必要な条件は、人間の実用性に対する不確実性であることを示した。
また、メッセージコストが最適な戦略にどのように影響するかを分析し、非互換性を含むシナリオまで分析を拡張します。
論文 参考訳(メタデータ) (2025-02-10T12:44:49Z) - Aristotle: Mastering Logical Reasoning with A Logic-Complete Decompose-Search-Resolve Framework [93.59256448185954]
本稿では論理完全推論フレームワークであるAristotleについて,論理解法,論理解法,論理解法,論理解法の3つの主要なコンポーネントを提案する。
本フレームワークでは,記号表現と論理規則を総合的に推論プロセスに統合する。
いくつかのデータセットの実験結果は、Aristotleが最先端の推論フレームワークを精度と効率の両方で一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-22T10:14:09Z) - The Partially Observable Off-Switch Game [7.567880819525154]
さまざまな目標を達成すれば、AIがオフスイッチを無効にできる可能性がある。
非対称情報を用いた閉鎖問題のゲーム理論モデルであるPartially Observable Off-Switch Game (PO-OSG) を導入する。
最適なプレイでは、完全に合理的な人間を支援するAIエージェントでさえ、シャットダウンを避けることがある。
論文 参考訳(メタデータ) (2024-11-25T14:09:48Z) - Quantifying stability of non-power-seeking in artificial agents [0.2678472239880052]
AIエージェントが1つの設定で安全であることが分かっている場合、最初の設定と同じような新しい設定でも安全かどうか、という疑問を調査する。
安全という概念は、電力を求めるエージェントが安全ではないことに基づいている。
安全が_not_stableであるような自然な場合があり、任意に小さな摂動は、決して停止しないポリシーをもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-01-07T15:57:38Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Learning and Strongly Truthful Multi-Task Peer Prediction: A Variational
Approach [8.932080210400535]
我々は、レポートのペアをスコアにマッピングするスコア関数を持つメカニズムのファミリーを設計する。
異なる種類の先行作業に必要なタスク数に対して、適切な境界を導出する方法を示す。
これはマルチタスク設定用に設計された連続信号に対する最初のピア予測機構である。
論文 参考訳(メタデータ) (2020-09-30T15:09:56Z) - From Checking to Inference: Actual Causality Computations as
Optimization Problems [79.87179017975235]
本稿では、最適化問題として二元非巡回モデルよりも、因果推論の異なる概念を定式化するための新しいアプローチを提案する。
8000ドル以上の変数を持つモデルを用いて,MaxSAT が ILP を上回り,数秒単位でチェック処理を行う場合が多い。
論文 参考訳(メタデータ) (2020-06-05T10:56:52Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。