論文の概要: Can an AI Agent Safely Run a Government? Existence of Probably Approximately Aligned Policies
- arxiv url: http://arxiv.org/abs/2412.00033v1
- Date: Thu, 21 Nov 2024 11:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-08 08:47:23.917439
- Title: Can an AI Agent Safely Run a Government? Existence of Probably Approximately Aligned Policies
- Title(参考訳): AIエージェントが政府を安全に運営できるのか?
- Authors: Frédéric Berdoz, Roger Wattenhofer,
- Abstract要約: 既存のアライメント法はそのようなモデルの安全性を公式に保証するものではない。
社会的意思決定の文脈におけるアライメントの新しい定量的定義を提供する。
自律エージェントのブラックボックスポリシーを保護するための,単純かつ堅牢な手法を提案する。
- 参考スコア(独自算出の注目度): 23.27199615640474
- License:
- Abstract: While autonomous agents often surpass humans in their ability to handle vast and complex data, their potential misalignment (i.e., lack of transparency regarding their true objective) has thus far hindered their use in critical applications such as social decision processes. More importantly, existing alignment methods provide no formal guarantees on the safety of such models. Drawing from utility and social choice theory, we provide a novel quantitative definition of alignment in the context of social decision-making. Building on this definition, we introduce probably approximately aligned (i.e., near-optimal) policies, and we derive a sufficient condition for their existence. Lastly, recognizing the practical difficulty of satisfying this condition, we introduce the relaxed concept of safe (i.e., nondestructive) policies, and we propose a simple yet robust method to safeguard the black-box policy of any autonomous agent, ensuring all its actions are verifiably safe for the society.
- Abstract(参考訳): 自律的なエージェントは、膨大な複雑なデータを扱う能力において人間を上回ることが多いが、その潜在的なミスアライメント(すなわち、真の目的に関する透明性の欠如)は、社会的決定プロセスのような重要なアプリケーションでの使用を妨げている。
さらに重要なことは、既存のアライメント手法はそのようなモデルの安全性に関する正式な保証を提供していないことである。
実用性理論と社会的選択理論から、我々は社会的意思決定の文脈におけるアライメントの新しい定量的定義を提供する。
この定義に基づいて、我々はおそらくほぼ一致した(すなわち、ほぼ最適に近い)政策を導入し、それらの存在に対して十分な条件を導出する。
最後に、この条件を満たすことの実際的困難を認識し、緩和された安全(すなわち非破壊)政策の概念を導入し、我々は、あらゆる自律エージェントのブラックボックスポリシーを安全かつ堅牢に保護し、すべての行動が社会にとって確実に安全であることを保証するための方法を提案する。
関連論文リスト
- Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Absolute State-wise Constrained Policy Optimization: High-Probability State-wise Constraints Satisfaction [20.00178731842195]
既存の安全な強化学習(RL)手法は、期待する状態の制約を強制するか、強い仮定で厳格な状態の制約を強制するのみである。
本稿では,制約システムに対する高確率な状態満足度を保証するための,新しい汎用ポリシー探索アルゴリズムを提案する。
この結果から, ASCPO は, 連続制御タスクにおける状態制約処理において, 既存の手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-02T03:43:33Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Safe Explicable Planning [3.3869539907606603]
安全計画(SEP:Safe Explicable Planning)を提案する。
提案手法は,複数のモデルから派生した複数の対象の考察を一般化する。
これらの手法の望ましい理論的性質を検証するための公式な証明を提供する。
論文 参考訳(メタデータ) (2023-04-04T21:49:02Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Feasible Actor-Critic: Constrained Reinforcement Learning for Ensuring
Statewise Safety [1.9573380763700712]
本稿では,モデルレス制約付き安全な強化学習法であるFACアルゴリズムを提案する。
我々は、どの政策を選択しても本質的に安全ではないと主張する州もあるが、他の州には安全を保証する政策があり、そのような州や政策は実現可能であると我々は主張する。
我々は,FACが制約満足度と報酬最適化の両方の観点から,従来の予測に基づく制約付きRL法より優れていることを理論的に保証する。
論文 参考訳(メタデータ) (2021-05-22T10:40:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。