Fugu-MT 論文翻訳(概要): AGI Agent Safety by Iteratively Improving the Utility Function

論文の概要: AGI Agent Safety by Iteratively Improving the Utility Function

arxiv url: http://arxiv.org/abs/2007.05411v1
Date: Fri, 10 Jul 2020 14:30:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-11 21:59:23.189771
Title: AGI Agent Safety by Iteratively Improving the Utility Function
Title（参考訳）: agiエージェントの実用機能向上による安全性向上
Authors: Koen Holtman
Abstract要約: 本稿では,AGIエージェントのユーティリティ機能の反復的改善を支援するために,専用の入力端末を作成するAGIセーフティ層を提案する。因果影響図(CID)にマッピングする作業が進行中であることを示す。次に、既知の機械学習システムや将来のAGIレベルの学習システムに、安全層をラップする学習エージェントの設計を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While it is still unclear if agents with Artificial General Intelligence (AGI) could ever be built, we can already use mathematical models to investigate potential safety systems for these agents. We present an AGI safety layer that creates a special dedicated input terminal to support the iterative improvement of an AGI agent's utility function. The humans who switched on the agent can use this terminal to close any loopholes that are discovered in the utility function's encoding of agent goals and constraints, to direct the agent towards new goals, or to force the agent to switch itself off. An AGI agent may develop the emergent incentive to manipulate the above utility function improvement process, for example by deceiving, restraining, or even attacking the humans involved. The safety layer will partially, and sometimes fully, suppress this dangerous incentive. The first part of this paper generalizes earlier work on AGI emergency stop buttons. We aim to make the mathematical methods used to construct the layer more accessible, by applying them to an MDP model. We discuss two provable properties of the safety layer, and show ongoing work in mapping it to a Causal Influence Diagram (CID). In the second part, we develop full mathematical proofs, and show that the safety layer creates a type of bureaucratic blindness. We then present the design of a learning agent, a design that wraps the safety layer around either a known machine learning system, or a potential future AGI-level learning system. The resulting agent will satisfy the provable safety properties from the moment it is first switched on. Finally, we show how this agent can be mapped from its model to a real-life implementation. We review the methodological issues involved in this step, and discuss how these are typically resolved.
Abstract（参考訳）: AGI(Artificial General Intelligence)のエージェントが構築できるかどうかはまだ不明だが、これらのエージェントの潜在的な安全システムを調べるために、すでに数学的モデルが利用できる。本稿では,AGIエージェントのユーティリティ機能の反復的改善を支援するために,専用の入力端末を作成するAGIセーフティ層を提案する。エージェントをスイッチした人間は、この端末を使って、ユーティリティ関数のエージェントの目標と制約のエンコーディングで発見されたあらゆる抜け穴を閉じたり、エージェントを新しい目標に向けて誘導したり、エージェントをオフにしたりすることができる。 AGIエージェントは、上記実用機能改善プロセスを操作するための創発的なインセンティブ、例えば、人間を欺いたり、抑制したり、あるいは攻撃したりすることができる。安全層はこの危険なインセンティブを部分的に、時には完全に抑制する。本稿では,AGI緊急停止ボタンに関する先行研究を概説する。 mdpモデルに適用することで、層の構築に使用する数学的手法をより使いやすくすることを目指している。安全層の2つの証明可能な特性について論じ,それを因果影響図(CID)にマッピングする作業が進行中であることを示す。第2部では、完全な数学的証明を開発し、安全層が官僚的な盲目を生み出すことを示す。次に、既知の機械学習システムや将来のagiレベルの学習システムの周りに安全層を包む設計であるラーニングエージェントの設計を紹介する。生成したエージェントは、最初にスイッチオンした時点から証明可能な安全特性を満たす。最後に、このエージェントがモデルから実際の実装にどのようにマッピングできるかを示す。本稿では,この段階に関わる方法論的問題を概観し,その解決方法について論じる。

関連論文リスト

AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection [8.266563350981984]
大きな言語モデル(LLM)エージェントは、自然言語推論と外部ツールの実行を組み合わせることで、さまざまな問題を解決するための強力な新しいパラダイムを提供する。本研究では,エージェントランタイムトレースを解析可能なセマンティクスを用いた構造化プログラムとして扱う新しい知見を提案する。本稿では,エージェントトレースをグラフ中間表現に基づく構造化プログラム依存表現に変換するプログラム解析フレームワークであるAgentArmorを提案する。
論文参考訳（メタデータ） (2025-08-02T07:59:34Z)
Kaleidoscopic Teaming in Multi Agent Simulations [75.47388708240042]
我々は,エージェントが行う複雑な行動,思考プロセス,行動の安全性リスクを評価する上で,既存のレッドチームや安全評価フレームワークは不十分であると主張している。我々は,新しいコンテキスト内最適化手法を導入し,安全解析のためのより良いシナリオを生成する。エージェントの安全性を測定するためのフレームワークとともに使用できる適切なメトリクスを提案する。
論文参考訳（メタデータ） (2025-06-20T23:37:17Z)
Get the Agents Drunk: Memory Perturbations in Autonomous Agent-based Recommender Systems [29.35591074298123]
大規模言語モデルベースのエージェントは、パーソナライズされた振る舞いモデリングを実現するために、リコメンデータシステム(Agent4RS)でますます使われている。私たちの知る限りでは、Agent4RSがいかに堅牢かは未解明のままです。本稿では,エージェントの記憶を乱すことによってエージェント4RSを攻撃するための最初の取り組みを提案する。
論文参考訳（メタデータ） (2025-03-31T07:35:40Z)
AgentOps: Enabling Observability of LLM Agents [12.49728300301026]
大規模言語モデル(LLM)エージェントは、自律的で非決定論的行動のため、AI安全性に重大な懸念を提起する。本稿では,エージェントのライフサイクル全体を通じて追跡されるべきアーティファクトと関連するデータを特定し,効果的な観測可能性を実現するための,AgentOpsの包括的な分類法を提案する。私たちの分類は、監視、ロギング、分析をサポートするAgentOpsインフラストラクチャを設計、実装するためのリファレンステンプレートとして機能します。
論文参考訳（メタデータ） (2024-11-08T02:31:03Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)
Automated Design of Agentic Systems [5.404186221463082]
我々は,エージェントシステムの設計を自動生成することを目的とした,エージェントシステムの自動設計という新しい研究領域を定式化する。我々のアルゴリズムは、最先端の手作りエージェントを大幅に上回る斬新なデザインでエージェントを段階的に発明できることが示される。
論文参考訳（メタデータ） (2024-08-15T21:59:23Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文参考訳（メタデータ） (2024-06-06T15:15:41Z)
CACA Agent: Capability Collaboration based AI Agent [18.84686313298908]
本稿ではCACAエージェント(Capability Collaboration based AI Agent)を提案する。 CACA Agentは、単一のLLMへの依存を減らすだけでなく、AI Agentを実装するための一連のコラボレーティブ機能を統合する。本稿ではCACAエージェントの動作とアプリケーションシナリオの拡張について説明する。
論文参考訳（メタデータ） (2024-03-22T11:42:47Z)
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文参考訳（メタデータ） (2023-12-22T17:57:57Z)
The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされるまず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文参考訳（メタデータ） (2023-09-14T17:12:03Z)
On the Use and Misuse of Absorbing States in Multi-agent Reinforcement Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-11-10T23:45:08Z)
Counterfactual Planning in AGI Systems [0.0]
反現実的計画の鍵となるステップは、AGI機械学習システムを使用して反現実的世界モデルを構築することである。対物計画エージェントは、この対物計画世界で期待される実用性を最大限に発揮する行動を決定する。我々は、AGIエージェントの緊急停止ボタンと、諜報機関が爆発する前に自動的にエージェントを停止させる安全インターロックを構築するために、偽造計画を使用している。
論文参考訳（メタデータ） (2021-01-29T13:44:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。