論文の概要: Safety without alignment
- arxiv url: http://arxiv.org/abs/2303.00752v1
- Date: Mon, 27 Feb 2023 13:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 17:13:59.550398
- Title: Safety without alignment
- Title(参考訳): 整列のない安全
- Authors: Andr\'as Kornai and Michael Bukatin and Zsolt Zombori
- Abstract要約: 現在、AIの安全性における支配的なパラダイムは、人間の価値と一致している。
本研究では,サンドボックス内のハイブリッド定理証明器による実装経路を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, the dominant paradigm in AI safety is alignment with human values.
Here we describe progress on developing an alternative approach to safety,
based on ethical rationalism (Gewirth:1978), and propose an inherently safe
implementation path via hybrid theorem provers in a sandbox. As AGIs evolve,
their alignment may fade, but their rationality can only increase (otherwise
more rational ones will have a significant evolutionary advantage) so an
approach that ties their ethics to their rationality has clear long-term
advantages.
- Abstract(参考訳): 現在、AIの安全性における支配的なパラダイムは、人間の価値と一致している。
ここでは、倫理的合理主義(Gewirth:1978)に基づく安全性への代替アプローチの進展について述べるとともに、サンドボックス内のハイブリッド定理プローサによる本質的に安全な実装経路を提案する。
AGIが進化するにつれて、それらのアライメントは消滅するが、それらの合理性は増大する(またはより合理的なものは大きな進化上の優位性を持つ)。
関連論文リスト
- Agent Alignment in Evolving Social Norms [65.45423591744434]
本稿では,エージェント進化とアライメントのための進化的フレームワークであるEvolutionaryAgentを提案する。
社会規範が継続的に進化する環境では、エージェントは現在の社会規範に適応し、生存と増殖の確率が高くなる。
進化的エージェントは、一般的なタスクにおいてその能力を維持しながら、進化する社会規範と徐々に整合できることを示す。
論文 参考訳(メタデータ) (2024-01-09T15:44:44Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Foundational Moral Values for AI Alignment [0.0]
我々は、道徳哲学から引き出された5つの基本的価値観を提示し、生存、持続的世代間存在、社会、教育、真実という人間の生存に必要なものの上に構築する。
これらの価値は、技術的アライメント作業のためのより明確な方向を提供するだけでなく、これらの価値を取得し、維持するためのAIシステムからの脅威と機会を強調するためのフレームワークとしても役立ちます。
論文 参考訳(メタデータ) (2023-11-28T18:11:24Z) - Safety, Trust, and Ethics Considerations for Human-AI Teaming in
Aerospace Control [0.9790236766474201]
この写本は、AIの安全、信頼性、倫理的利用の微妙な違いを照らすための原典として機能している。
航空宇宙システム制御におけるHuman-AIコラボレーションの応用に焦点を当てている。
論文 参考訳(メタデータ) (2023-11-15T13:27:32Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion
Models? [54.20337292389793]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - The Promise and Peril of Artificial Intelligence -- Violet Teaming
Offers a Balanced Path Forward [56.16884466478886]
本稿では、不透明で制御不能なAIシステムにおける新興問題についてレビューする。
信頼性と責任のあるAIを開発するために、紫外チームと呼ばれる統合フレームワークを提案する。
それは、設計によって積極的にリスクを管理するためのAI安全研究から生まれた。
論文 参考訳(メタデータ) (2023-08-28T02:10:38Z) - Absolutist AI [0.0]
絶対的な制約でAIシステムを訓練することは、多くのAI安全問題にかなりの進歩をもたらす可能性がある。
ミスアライメントの最悪の結果を避けるためのガードレールを提供する。
非常に価値のある結果を得るために、AIが大惨事を引き起こすのを防げるかもしれない。
論文 参考訳(メタデータ) (2023-07-19T03:40:37Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - Mediating Artificial Intelligence Developments through Negative and
Positive Incentives [5.0066859598912945]
ポジティブな(リワード)インセンティブとネガティブな(罰)インセンティブが結果にどう影響するかを検討する。
いくつかのシナリオにおいて、安全対策に従う者に報酬を与えると、開発速度が向上し、安全な選択が保証されることが示されている。
論文 参考訳(メタデータ) (2020-10-01T13:43:32Z) - Artificial Intelligence, Values and Alignment [2.28438857884398]
AIアライメント問題の規範的および技術的側面は相互に関連している。
アライメントの目標を明確にすることが重要です。
理論家にとっての中心的な課題は、AIの「真の」道徳原則を特定することではない。
論文 参考訳(メタデータ) (2020-01-13T10:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。