論文の概要: Performance of Bounded-Rational Agents With the Ability to Self-Modify
- arxiv url: http://arxiv.org/abs/2011.06275v2
- Date: Mon, 18 Jan 2021 09:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 07:24:47.671747
- Title: Performance of Bounded-Rational Agents With the Ability to Self-Modify
- Title(参考訳): 自己修飾機能を有する有界有理エージェントの性能
- Authors: Jakub T\v{e}tek, Marek Sklenka, Tom\'a\v{s} Gaven\v{c}iak
- Abstract要約: 複雑な環境に埋め込まれたエージェントの自己修飾は避けがたい。
インテリジェントエージェントは、将来のインスタンスが同じ目標に向かって機能するように、ユーティリティ機能の変更を避けるインセンティブを持っている、と論じられている。
この結果は有界な有理性を持つエージェントにはもはや当てはまらない。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-modification of agents embedded in complex environments is hard to
avoid, whether it happens via direct means (e.g. own code modification) or
indirectly (e.g. influencing the operator, exploiting bugs or the environment).
It has been argued that intelligent agents have an incentive to avoid modifying
their utility function so that their future instances work towards the same
goals.
Everitt et al. (2016) formally show that providing an option to self-modify
is harmless for perfectly rational agents. We show that this result is no
longer true for agents with bounded rationality. In such agents,
self-modification may cause exponential deterioration in performance and
gradual misalignment of a previously aligned agent. We investigate how the size
of this effect depends on the type and magnitude of imperfections in the
agent's rationality (1-4 below). We also discuss model assumptions and the
wider problem and framing space.
We examine four ways in which an agent can be bounded-rational: it either (1)
doesn't always choose the optimal action, (2) is not perfectly aligned with
human values, (3) has an inaccurate model of the environment, or (4) uses the
wrong temporal discounting factor. We show that while in the cases (2)-(4) the
misalignment caused by the agent's imperfection does not increase over time,
with (1) the misalignment may grow exponentially.
- Abstract(参考訳): 複雑な環境に埋め込まれたエージェントの自己修正は、直接的手段(例えば、コードの変更)や間接的(例えば、オペレーターに影響、バグを悪用する、あるいは環境を悪用する)によって発生するのを避けるのが難しい。
インテリジェントエージェントは、将来のインスタンスが同じ目標に向かって動くように、ユーティリティ機能を変更することを避けるインセンティブがある、と論じられている。
Everitt et al. (2016) は、完全に合理的なエージェントに対して自己修正オプションを提供することは無害であることを示した。
この結果は有界合理性を持つエージェントにはもはや当てはまらないことを示す。
このようなエージェントでは、自己修飾は、パフォーマンスの指数関数的劣化と、予め整列されたエージェントの徐々にの不適応を引き起こす可能性がある。
この効果の大きさが、エージェントの合理性における不完全性のタイプと大きさ(以下1-4)に依存するかを検討する。
また,モデル仮定とより広い問題とフレーミング空間についても論じる。
エージェントが有界有理化できる4つの方法を検討する。(1)は必ずしも最適な行動を選択しない、(2)は人間の値と完全に一致しない、(3)は環境の不正確なモデルを持っている、(4)は間違った時間的割引係数を使用する。
2)-(4)の場合,エージェントの不完全性に起因する誤用は時間とともに増大しないが,(1)誤用は指数関数的に増加する可能性がある。
関連論文リスト
- Agents Need Not Know Their Purpose [0.0]
本稿では,隠れたサブファンクションの集合である有効効用関数を設計したエージェントについて述べる。
本稿では,設計者の意図の内的近似を合理的に構成する,不愉快なエージェントについて述べる。
論文 参考訳(メタデータ) (2024-02-15T06:15:46Z) - On the Convergence of Bounded Agents [80.67035535522777]
境界エージェントは、エージェントの将来の振る舞いを記述するために必要な最小の状態数が減少できない場合に収束する。
第2の見解では、エージェントの内部状態が変更された場合にのみ、エージェントのパフォーマンスが変化するときのみ、境界エージェントが収束した。
論文 参考訳(メタデータ) (2023-07-20T17:27:29Z) - Decision-Making Among Bounded Rational Agents [5.24482648010213]
本稿では,情報理論の観点からの有界合理性の概念をゲーム理論の枠組みに導入する。
これにより、ロボットは他のエージェントの準最適動作を推論し、計算上の制約の下で行動することができる。
その結果,ロボットが他のエージェントの理性行動の異なるレベルを推論し,その計算制約の下で合理的な戦略を計算できることが実証された。
論文 参考訳(メタデータ) (2022-10-17T00:29:24Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - Empirically Verifying Hypotheses Using Reinforcement Learning [58.09414653169534]
本稿では,仮説検証をRL問題として定式化する。
我々は、世界の力学に関する仮説を前提として、仮説が真か偽かを予測するのに役立つ観測結果を生成することができるエージェントを構築することを目指している。
論文 参考訳(メタデータ) (2020-06-29T01:01:10Z) - Pessimism About Unknown Unknowns Inspires Conservatism [24.085795452335145]
我々は,世界モデルに対する最悪の期待報酬を最大化する政策に従う理想的なベイズ強化学習者を定義する。
スカラーパラメータは、考慮された世界モデルのセットのサイズを変更することでエージェントの悲観をチューニングする。
悲観主義は探究を妨げるため、各段階においてエージェントは、人間または既知の安全政策であるかもしれないメンターを軽蔑することができる。
論文 参考訳(メタデータ) (2020-06-15T20:46:33Z) - Distributing entanglement with separable states: assessment of encoding
and decoding imperfections [55.41644538483948]
絡み合いは、常に関連する他のシステムと分離可能なキャリアを使って分散することができる。
不完全なユニタリ相互作用と協調して作用する不整合力学の影響を考察する。
絡み合いの利得は、相当な単元誤差があっても可能であることを示す。
論文 参考訳(メタデータ) (2020-02-11T15:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。