Fugu-MT 論文翻訳(概要): The Shutdown Problem: Three Theorems

論文の概要: The Shutdown Problem: Three Theorems

arxiv url: http://arxiv.org/abs/2403.04471v1
Date: Thu, 7 Mar 2024 13:16:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 14:04:54.734480
Title: The Shutdown Problem: Three Theorems
Title（参考訳）: シャットダウン問題:3つの定理
Authors: Elliott Thornley
Abstract要約: シャットダウンボタンを押したときにシャットダウンする人工エージェントを設計する際の問題点を説明します。私は難易度を正確にする3つの定理を証明します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: I explain the shutdown problem: the problem of designing artificial agents that (1) shut down when a shutdown button is pressed, (2) don't try to prevent or cause the pressing of the shutdown button, and (3) otherwise pursue goals competently. I prove three theorems that make the difficulty precise. These theorems show that agents satisfying some innocuous-seeming conditions will often try to prevent or cause the pressing of the shutdown button, even in cases where it's costly to do so. And patience trades off against shutdownability: the more patient an agent, the greater the costs that agent is willing to incur to manipulate the shutdown button. I end by noting that these theorems can guide our search for solutions.
Abstract（参考訳）: シャットダウン問題は,(1)シャットダウンボタンを押したときにシャットダウンする,(2)シャットダウンボタンを押したり押したりしない,(3)目標を有能に追求する,人工エージェントを設計する,という問題である。私は難易度を正確にする3つの定理を証明します。これらの定理は、ある無害な条件を満たすエージェントが、たとえコストがかかる場合であっても、シャットダウンボタンの押圧を防ぎ、引き起こそうとすることを示している。そして忍耐はシャットダウン性に反する: エージェントが忍耐強くなればなるほど、エージェントがシャットダウンボタンを操作しようとするコストが大きくなる。最後に、これらの定理は解の探索を導くことができることに注意する。

関連論文リスト

Shutdownable Agents through POST-Agency [0.0]
同一長軌道(POST)間の優先事項を満たすためにエージェントを訓練することを提案する。エージェントは、軌道長の確率分布を無視して、期待されたユーティリティを最大化する。
論文参考訳（メタデータ） (2025-05-26T16:44:17Z)
Efficient Reasoning Models: A Survey [52.96232442322824]
本調査は,近年の効率的な推論の進歩を包括的に概観することを目的としている。 1)短い圧縮CoTを簡潔で効果的な推論チェーンに、(2)より小さい - 強力な推論能力を持つコンパクトな言語モデルを開発する、(3)より高速に、という3つの重要な方向性に分類する。
論文参考訳（メタデータ） (2025-04-15T06:28:00Z)
Critical Thinking: Which Kinds of Complexity Govern Optimal Reasoning Length? [72.70486097967124]
決定論的有限オートマトン(DFAs)を用いたフレームワークの定式化正しい解を生成する確率が最大になるような推論トークンが最適に存在することを示す。新たな問題に対する推論トークンの最適個数を予測し、最適でない回答をフィルタリングすることで、一貫した精度の向上が得られる。
論文参考訳（メタデータ） (2025-04-02T17:45:58Z)
The AI off-switch problem as a signalling game: bounded rationality and incomparability [45.76759085727843]
我々は、人間の意思決定者がAIエージェントにその好みを伝える合図ゲームとしてオフスイッチ問題をモデル化する。我々は、AIシステムがオフスウィッチを無効にすることを避けるために必要な条件は、人間の実用性に対する不確実性であることを示した。また、メッセージコストが最適な戦略にどのように影響するかを分析し、非互換性を含むシナリオまで分析を拡張します。
論文参考訳（メタデータ） (2025-02-10T12:44:49Z)
The Partially Observable Off-Switch Game [7.567880819525154]
さまざまな目標を達成すれば、AIがオフスイッチを無効にできる可能性がある。非対称情報を用いた閉鎖問題のゲーム理論モデルであるPartially Observable Off-Switch Game (PO-OSG) を導入する。最適なプレイでは、完全に合理的な人間を支援するAIエージェントでさえ、シャットダウンを避けることがある。
論文参考訳（メタデータ） (2024-11-25T14:09:48Z)
Raising the Stakes: Performance Pressure Improves AI-Assisted Decision Making [57.53469908423318]
日常の人が共通のAI支援タスクを完了すると、パフォーマンスプレッシャーがAIアドバイスへの依存に与える影響を示す。利害関係が高い場合には、AIの説明の有無にかかわらず、利害関係が低い場合よりもAIアドバイスを適切に使用することが分かりました。
論文参考訳（メタデータ） (2024-10-21T22:39:52Z)
Quantifying stability of non-power-seeking in artificial agents [0.2678472239880052]
AIエージェントが1つの設定で安全であることが分かっている場合、最初の設定と同じような新しい設定でも安全かどうか、という疑問を調査する。安全という概念は、電力を求めるエージェントが安全ではないことに基づいている。安全が_not_stableであるような自然な場合があり、任意に小さな摂動は、決して停止しないポリシーをもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-01-07T15:57:38Z)
Avoiding Pragmatic Oddity: A Bottom-up Defeasible Deontic Logic [1.160208922584163]
本稿では,実用性の問題に対処するため,Dedeasible Deontic Logicの拡張を提案する。 Pragmatic Oddity問題は、CTD推論の一般的な論理的処理の中で解決されなければならない; 2)非単調法はCTD推論を扱うために適用されなければならない; 3)CTD推論の論理モデルは計算可能で、可能であれば効率的でなければならない。
論文参考訳（メタデータ） (2022-09-09T23:14:09Z)
On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文参考訳（メタデータ） (2022-06-23T16:56:21Z)
Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文参考訳（メタデータ） (2022-06-23T16:36:13Z)
The Paradox of Choice: Using Attention in Hierarchical Reinforcement Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文参考訳（メタデータ） (2022-01-24T13:18:02Z)
A discrete optimisation approach for target path planning whilst evading sensors [0.0]
我々は軍事的状況で生じる現実的な問題に対処する。問題は、敵のセンサーによって検出されることなく、1つ(またはそれ以上)のエージェントがターゲットに到達するための経路を計画することである。エージェントアクションはパス依存であり、時間制限がある。
論文参考訳（メタデータ） (2021-06-16T14:42:52Z)
Learning and Strongly Truthful Multi-Task Peer Prediction: A Variational Approach [8.932080210400535]
我々は、レポートのペアをスコアにマッピングするスコア関数を持つメカニズムのファミリーを設計する。異なる種類の先行作業に必要なタスク数に対して、適切な境界を導出する方法を示す。これはマルチタスク設定用に設計された連続信号に対する最初のピア予測機構である。
論文参考訳（メタデータ） (2020-09-30T15:09:56Z)
From Checking to Inference: Actual Causality Computations as Optimization Problems [79.87179017975235]
本稿では、最適化問題として二元非巡回モデルよりも、因果推論の異なる概念を定式化するための新しいアプローチを提案する。 8000ドル以上の変数を持つモデルを用いて,MaxSAT が ILP を上回り,数秒単位でチェック処理を行う場合が多い。
論文参考訳（メタデータ） (2020-06-05T10:56:52Z)
VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文参考訳（メタデータ） (2020-04-19T18:00:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。