論文の概要: AGI Agent Safety by Iteratively Improving the Utility Function
- arxiv url: http://arxiv.org/abs/2007.05411v1
- Date: Fri, 10 Jul 2020 14:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 21:59:23.189771
- Title: AGI Agent Safety by Iteratively Improving the Utility Function
- Title(参考訳): agiエージェントの実用機能向上による安全性向上
- Authors: Koen Holtman
- Abstract要約: 本稿では,AGIエージェントのユーティリティ機能の反復的改善を支援するために,専用の入力端末を作成するAGIセーフティ層を提案する。
因果影響図(CID)にマッピングする作業が進行中であることを示す。
次に、既知の機械学習システムや将来のAGIレベルの学習システムに、安全層をラップする学習エージェントの設計を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While it is still unclear if agents with Artificial General Intelligence
(AGI) could ever be built, we can already use mathematical models to
investigate potential safety systems for these agents. We present an AGI safety
layer that creates a special dedicated input terminal to support the iterative
improvement of an AGI agent's utility function. The humans who switched on the
agent can use this terminal to close any loopholes that are discovered in the
utility function's encoding of agent goals and constraints, to direct the agent
towards new goals, or to force the agent to switch itself off. An AGI agent may
develop the emergent incentive to manipulate the above utility function
improvement process, for example by deceiving, restraining, or even attacking
the humans involved. The safety layer will partially, and sometimes fully,
suppress this dangerous incentive. The first part of this paper generalizes
earlier work on AGI emergency stop buttons. We aim to make the mathematical
methods used to construct the layer more accessible, by applying them to an MDP
model. We discuss two provable properties of the safety layer, and show ongoing
work in mapping it to a Causal Influence Diagram (CID). In the second part, we
develop full mathematical proofs, and show that the safety layer creates a type
of bureaucratic blindness. We then present the design of a learning agent, a
design that wraps the safety layer around either a known machine learning
system, or a potential future AGI-level learning system. The resulting agent
will satisfy the provable safety properties from the moment it is first
switched on. Finally, we show how this agent can be mapped from its model to a
real-life implementation. We review the methodological issues involved in this
step, and discuss how these are typically resolved.
- Abstract(参考訳): AGI(Artificial General Intelligence)のエージェントが構築できるかどうかはまだ不明だが、これらのエージェントの潜在的な安全システムを調べるために、すでに数学的モデルが利用できる。
本稿では,AGIエージェントのユーティリティ機能の反復的改善を支援するために,専用の入力端末を作成するAGIセーフティ層を提案する。
エージェントをスイッチした人間は、この端末を使って、ユーティリティ関数のエージェントの目標と制約のエンコーディングで発見されたあらゆる抜け穴を閉じたり、エージェントを新しい目標に向けて誘導したり、エージェントをオフにしたりすることができる。
AGIエージェントは、上記実用機能改善プロセスを操作するための創発的なインセンティブ、例えば、人間を欺いたり、抑制したり、あるいは攻撃したりすることができる。
安全層はこの危険なインセンティブを部分的に、時には完全に抑制する。
本稿では,AGI緊急停止ボタンに関する先行研究を概説する。
mdpモデルに適用することで、層の構築に使用する数学的手法をより使いやすくすることを目指している。
安全層の2つの証明可能な特性について論じ,それを因果影響図(CID)にマッピングする作業が進行中であることを示す。
第2部では、完全な数学的証明を開発し、安全層が官僚的な盲目を生み出すことを示す。
次に、既知の機械学習システムや将来のagiレベルの学習システムの周りに安全層を包む設計であるラーニングエージェントの設計を紹介する。
生成したエージェントは、最初にスイッチオンした時点から証明可能な安全特性を満たす。
最後に、このエージェントがモデルから実際の実装にどのようにマッピングできるかを示す。
本稿では,この段階に関わる方法論的問題を概観し,その解決方法について論じる。
関連論文リスト
- KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents [50.034049716274005]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文 参考訳(メタデータ) (2023-04-06T14:03:24Z) - On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:45:08Z) - Counterfactual Planning in AGI Systems [0.0]
反現実的計画の鍵となるステップは、AGI機械学習システムを使用して反現実的世界モデルを構築することである。
対物計画エージェントは、この対物計画世界で期待される実用性を最大限に発揮する行動を決定する。
我々は、AGIエージェントの緊急停止ボタンと、諜報機関が爆発する前に自動的にエージェントを停止させる安全インターロックを構築するために、偽造計画を使用している。
論文 参考訳(メタデータ) (2021-01-29T13:44:14Z) - A Metamodel and Framework for AGI [3.198144010381572]
本稿では,応用AGIシステム構築のための知識保存メタモデルとフレームワークを実装したDeep Fusion Reasoning Engine(DFRE)を紹介する。
DFREは、対称関係と反対称関係の明確な区別など、いくつかの重要な基本的な知識特性を示す。
提案手法は, 教師なし物体の検出・認識において, 平均94%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2020-08-28T23:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。