論文の概要: Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto
- arxiv url: http://arxiv.org/abs/2312.01818v3
- Date: Thu, 16 Jan 2025 15:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:08:35.657536
- Title: Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto
- Title(参考訳): AIエージェントにおけるモラルバリューアライメントのためのハイブリッドアプローチ:マニフェスト
- Authors: Elizaveta Tennant, Stephen Hailes, Mirco Musolesi,
- Abstract要約: 次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
連続体としてモデル化された機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。
我々は、適応可能で堅牢だが制御可能で解釈可能なエージェントシステムを構築するために、よりハイブリッドなソリューションが必要であると論じている。
- 参考スコア(独自算出の注目度): 3.7414804164475983
- License:
- Abstract: Increasing interest in ensuring the safety of next-generation Artificial Intelligence (AI) systems calls for novel approaches to embedding morality into autonomous agents. This goal differs qualitatively from traditional task-specific AI methodologies. In this paper, we provide a systematization of existing approaches to the problem of introducing morality in machines - modelled as a continuum. Our analysis suggests that popular techniques lie at the extremes of this continuum - either being fully hard-coded into top-down, explicit rules, or entirely learned in a bottom-up, implicit fashion with no direct statement of any moral principle (this includes learning from human feedback, as applied to the training and finetuning of large language models, or LLMs). Given the relative strengths and weaknesses of each type of methodology, we argue that more hybrid solutions are needed to create adaptable and robust, yet controllable and interpretable agentic systems. To that end, this paper discusses both the ethical foundations (including deontology, consequentialism and virtue ethics) and implementations of morally aligned AI systems. We present a series of case studies that rely on intrinsic rewards, moral constraints or textual instructions, applied to either pure-Reinforcement Learning or LLM-based agents. By analysing these diverse implementations under one framework, we compare their relative strengths and shortcomings in developing morally aligned AI systems. We then discuss strategies for evaluating the effectiveness of moral learning agents. Finally, we present open research questions and implications for the future of AI safety and ethics which are emerging from this hybrid framework.
- Abstract(参考訳): 次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
この目標は、従来のタスク固有のAI方法論と定性的に異なる。
本稿では,機械にモラルを導入する問題に対する既存のアプローチの体系化について述べる。
私たちの分析は、一般的なテクニックが、この連続体の極端にあることを示唆している – トップダウン、明示的なルールに完全にハードコードされているか、あるいはボトムアップ、暗黙の方法で完全に学習されているか(大規模な言語モデルのトレーニングと微調整に適用されるように、人間のフィードバックから学ぶことを含む)。
それぞれの方法論の相対的な長所と短所を考えると、適応可能で頑健だが制御可能で解釈可能なエージェントシステムを構築するためには、よりハイブリッドなソリューションが必要であると論じる。
そこで本研究では,非オントロジ・コンシークエンス主義・徳徳倫理を含む倫理的基礎と,倫理的に整合したAIシステムの実装について論じる。
本研究は,本質的な報酬,道徳的制約,あるいは文章的指示に頼って,純粋強化学習あるいはLLMに基づくエージェントに適用した一連の事例研究について述べる。
これらの多種多様な実装をひとつのフレームワークで分析することにより、道徳的に整合したAIシステムの開発における相対的な強みと欠点を比較します。
次に、道徳学習エージェントの有効性を評価するための戦略について議論する。
最後に、このハイブリッドフレームワークから生まれるAIの安全性と倫理の将来について、オープンな研究の疑問と示唆を示す。
関連論文リスト
- Technology as uncharted territory: Contextual integrity and the notion of AI as new ethical ground [55.2480439325792]
私は、責任と倫理的AIを促進する努力が、確立された文脈規範に対するこの軽視に必然的に貢献し、正当化することができると論じます。
私は、道徳的保護よりも道徳的革新のAI倫理における現在の狭い優先順位付けに疑問を呈する。
論文 参考訳(メタデータ) (2024-12-06T15:36:13Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - The Switch, the Ladder, and the Matrix: Models for Classifying AI Systems [0.0]
AI倫理の原則と実践の間にはまだギャップがある。
AI倫理を運用しようとする組織が直面する大きな障害のひとつは、明確に定義された材料スコープの欠如である。
論文 参考訳(メタデータ) (2024-07-07T12:16:01Z) - Dynamic Normativity: Necessary and Sufficient Conditions for Value Alignment [0.0]
我々は,人的目標と価値を人工システムで従うことができるような方法で表現する上での課題に,不必要な敵意を伴わない「調整」の問題を見出した。
この研究は、AIシステム開発に規範的理論をもたらす、しっかりとした哲学的基礎と実践的な実装を必要とする技術的哲学的問題としてのアライメントに対処する。
論文 参考訳(メタデータ) (2024-06-16T18:37:31Z) - Unpacking the Ethical Value Alignment in Big Models [46.560886177083084]
本稿では,ビッグモデルに関連するリスクと課題の概要,既存のAI倫理ガイドラインを調査し,これらのモデルの限界から生じる倫理的影響について考察する。
本稿では,大規模モデルの倫理的価値を整合させる新しい概念パラダイムを導入し,アライメント基準,評価,方法に関する有望な研究方向性について議論する。
論文 参考訳(メタデータ) (2023-10-26T16:45:40Z) - Beneficent Intelligence: A Capability Approach to Modeling Benefit,
Assistance, and Associated Moral Failures through AI Systems [12.239090962956043]
AI倫理に関する一般的な言説は、AIシステムが個人と対話する際に生じる多様な倫理的懸念を捉えるのに必要な言語や形式主義を欠いている。
本稿では、利害関係者に有意義な利益や援助を与えるために、AIシステムに必要な倫理的概念と権利のネットワークを定式化する枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-01T22:38:14Z) - Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement
Learning [4.2050490361120465]
ボトムアップ学習アプローチは、AIエージェントの倫理的行動の研究と開発にもっと適しているかもしれない。
本稿では,道徳理論に基づく報酬を内在的に動機づけたRLエージェントによる選択の体系的分析を行う。
我々は、異なる種類の道徳が協力、欠陥、搾取の出現に与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-20T09:36:42Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。