論文の概要: AGI Agent Safety by Iteratively Improving the Utility Function
- arxiv url: http://arxiv.org/abs/2007.05411v1
- Date: Fri, 10 Jul 2020 14:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 21:59:23.189771
- Title: AGI Agent Safety by Iteratively Improving the Utility Function
- Title(参考訳): agiエージェントの実用機能向上による安全性向上
- Authors: Koen Holtman
- Abstract要約: 本稿では,AGIエージェントのユーティリティ機能の反復的改善を支援するために,専用の入力端末を作成するAGIセーフティ層を提案する。
因果影響図(CID)にマッピングする作業が進行中であることを示す。
次に、既知の機械学習システムや将来のAGIレベルの学習システムに、安全層をラップする学習エージェントの設計を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While it is still unclear if agents with Artificial General Intelligence
(AGI) could ever be built, we can already use mathematical models to
investigate potential safety systems for these agents. We present an AGI safety
layer that creates a special dedicated input terminal to support the iterative
improvement of an AGI agent's utility function. The humans who switched on the
agent can use this terminal to close any loopholes that are discovered in the
utility function's encoding of agent goals and constraints, to direct the agent
towards new goals, or to force the agent to switch itself off. An AGI agent may
develop the emergent incentive to manipulate the above utility function
improvement process, for example by deceiving, restraining, or even attacking
the humans involved. The safety layer will partially, and sometimes fully,
suppress this dangerous incentive. The first part of this paper generalizes
earlier work on AGI emergency stop buttons. We aim to make the mathematical
methods used to construct the layer more accessible, by applying them to an MDP
model. We discuss two provable properties of the safety layer, and show ongoing
work in mapping it to a Causal Influence Diagram (CID). In the second part, we
develop full mathematical proofs, and show that the safety layer creates a type
of bureaucratic blindness. We then present the design of a learning agent, a
design that wraps the safety layer around either a known machine learning
system, or a potential future AGI-level learning system. The resulting agent
will satisfy the provable safety properties from the moment it is first
switched on. Finally, we show how this agent can be mapped from its model to a
real-life implementation. We review the methodological issues involved in this
step, and discuss how these are typically resolved.
- Abstract(参考訳): AGI(Artificial General Intelligence)のエージェントが構築できるかどうかはまだ不明だが、これらのエージェントの潜在的な安全システムを調べるために、すでに数学的モデルが利用できる。
本稿では,AGIエージェントのユーティリティ機能の反復的改善を支援するために,専用の入力端末を作成するAGIセーフティ層を提案する。
エージェントをスイッチした人間は、この端末を使って、ユーティリティ関数のエージェントの目標と制約のエンコーディングで発見されたあらゆる抜け穴を閉じたり、エージェントを新しい目標に向けて誘導したり、エージェントをオフにしたりすることができる。
AGIエージェントは、上記実用機能改善プロセスを操作するための創発的なインセンティブ、例えば、人間を欺いたり、抑制したり、あるいは攻撃したりすることができる。
安全層はこの危険なインセンティブを部分的に、時には完全に抑制する。
本稿では,AGI緊急停止ボタンに関する先行研究を概説する。
mdpモデルに適用することで、層の構築に使用する数学的手法をより使いやすくすることを目指している。
安全層の2つの証明可能な特性について論じ,それを因果影響図(CID)にマッピングする作業が進行中であることを示す。
第2部では、完全な数学的証明を開発し、安全層が官僚的な盲目を生み出すことを示す。
次に、既知の機械学習システムや将来のagiレベルの学習システムの周りに安全層を包む設計であるラーニングエージェントの設計を紹介する。
生成したエージェントは、最初にスイッチオンした時点から証明可能な安全特性を満たす。
最後に、このエージェントがモデルから実際の実装にどのようにマッピングできるかを示す。
本稿では,この段階に関わる方法論的問題を概観し,その解決方法について論じる。
関連論文リスト
- AgentOps: Enabling Observability of LLM Agents [12.49728300301026]
大規模言語モデル(LLM)エージェントは、自律的で非決定論的行動のため、AI安全性に重大な懸念を提起する。
本稿では,エージェントのライフサイクル全体を通じて追跡されるべきアーティファクトと関連するデータを特定し,効果的な観測可能性を実現するための,AgentOpsの包括的な分類法を提案する。
私たちの分類は、監視、ロギング、分析をサポートするAgentOpsインフラストラクチャを設計、実装するためのリファレンステンプレートとして機能します。
論文 参考訳(メタデータ) (2024-11-08T02:31:03Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Automated Design of Agentic Systems [5.404186221463082]
我々は,エージェントシステムの設計を自動生成することを目的とした,エージェントシステムの自動設計という新しい研究領域を定式化する。
我々のアルゴリズムは、最先端の手作りエージェントを大幅に上回る斬新なデザインでエージェントを段階的に発明できることが示される。
論文 参考訳(メタデータ) (2024-08-15T21:59:23Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Counterfactual Planning in AGI Systems [0.0]
反現実的計画の鍵となるステップは、AGI機械学習システムを使用して反現実的世界モデルを構築することである。
対物計画エージェントは、この対物計画世界で期待される実用性を最大限に発揮する行動を決定する。
我々は、AGIエージェントの緊急停止ボタンと、諜報機関が爆発する前に自動的にエージェントを停止させる安全インターロックを構築するために、偽造計画を使用している。
論文 参考訳(メタデータ) (2021-01-29T13:44:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。