論文の概要: Learning Machine Morality through Experience and Interaction
- arxiv url: http://arxiv.org/abs/2312.01818v1
- Date: Mon, 4 Dec 2023 11:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:29:02.045765
- Title: Learning Machine Morality through Experience and Interaction
- Title(参考訳): 経験と相互作用による機械学習のモラル学習
- Authors: Elizaveta Tennant, Stephen Hailes, Mirco Musolesi
- Abstract要約: 次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
我々は、適応可能で堅牢だが、より制御可能で解釈可能なエージェントを作成するために、よりハイブリッドなソリューションが必要であると論じている。
- 参考スコア(独自算出の注目度): 4.2050490361120465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Increasing interest in ensuring safety of next-generation Artificial
Intelligence (AI) systems calls for novel approaches to embedding morality into
autonomous agents. Traditionally, this has been done by imposing explicit
top-down rules or hard constraints on systems, for example by filtering system
outputs through pre-defined ethical rules. Recently, instead, entirely
bottom-up methods for learning implicit preferences from human behavior have
become increasingly popular, such as those for training and fine-tuning Large
Language Models. In this paper, we provide a systematization of existing
approaches to the problem of introducing morality in machines - modeled as a
continuum, and argue that the majority of popular techniques lie at the
extremes - either being fully hard-coded, or entirely learned, where no
explicit statement of any moral principle is required. Given the relative
strengths and weaknesses of each type of methodology, we argue that more hybrid
solutions are needed to create adaptable and robust, yet more controllable and
interpretable agents.
In particular, we present three case studies of recent works which use
learning from experience (i.e., Reinforcement Learning) to explicitly provide
moral principles to learning agents - either as intrinsic rewards, moral
logical constraints or textual principles for language models. For example,
using intrinsic rewards in Social Dilemma games, we demonstrate how it is
possible to represent classical moral frameworks for agents. We also present an
overview of the existing work in this area in order to provide empirical
evidence for the potential of this hybrid approach. We then discuss strategies
for evaluating the effectiveness of moral learning agents. Finally, we present
open research questions and implications for the future of AI safety and ethics
which are emerging from this framework.
- Abstract(参考訳): 次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
伝統的にこれは、事前定義された倫理的ルールを通じてシステム出力をフィルタリングすることで、明示的なトップダウンルールやハード制約をシステムに課すことで行われてきた。
近年、人間の行動から暗黙の好みを学ぶためのボトムアップの手法が、トレーニングや大規模言語モデルの微調整など、一般的になってきている。
本稿では,機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。これは連続体としてモデル化され,一般的なテクニックの大部分が,完全にハードコードされているか,完全に学習されているかのいずれかであり,道徳原理の明示的な記述は不要である,と論じる。
それぞれの方法論の相対的な長所と短所を考えると、適応可能で堅牢だが制御可能で解釈可能なエージェントを作るためには、よりハイブリッドなソリューションが必要であると論じる。
特に,経験からの学習(即ち強化学習)を用いて,内在的な報酬,道徳的論理的制約,言語モデルのためのテクスト的原則など,学習エージェントに道徳的な原則を明示的に提供する最近の作品の3つのケーススタディについて述べる。
例えば、社会ジレンマゲームにおける本質的な報酬を用いて、エージェントに対する古典的な道徳的枠組みをいかに表現できるかを示す。
また、このハイブリッドアプローチの可能性に関する実証的な証拠を提供するため、この分野における既存の作業の概要を示す。
次に、道徳学習エージェントの有効性を評価するための戦略について議論する。
最後に、この枠組みから生まれたAIの安全性と倫理の将来について、オープンな研究の疑問と示唆を示す。
関連論文リスト
- Technology as uncharted territory: Contextual integrity and the notion of AI as new ethical ground [55.2480439325792]
私は、責任と倫理的AIを促進する努力が、確立された文脈規範に対するこの軽視に必然的に貢献し、正当化することができると論じます。
私は、道徳的保護よりも道徳的革新のAI倫理における現在の狭い優先順位付けに疑問を呈する。
論文 参考訳(メタデータ) (2024-12-06T15:36:13Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - The Switch, the Ladder, and the Matrix: Models for Classifying AI Systems [0.0]
AI倫理の原則と実践の間にはまだギャップがある。
AI倫理を運用しようとする組織が直面する大きな障害のひとつは、明確に定義された材料スコープの欠如である。
論文 参考訳(メタデータ) (2024-07-07T12:16:01Z) - Dynamic Normativity: Necessary and Sufficient Conditions for Value Alignment [0.0]
我々は,人的目標と価値を人工システムで従うことができるような方法で表現する上での課題に,不必要な敵意を伴わない「調整」の問題を見出した。
この研究は、AIシステム開発に規範的理論をもたらす、しっかりとした哲学的基礎と実践的な実装を必要とする技術的哲学的問題としてのアライメントに対処する。
論文 参考訳(メタデータ) (2024-06-16T18:37:31Z) - Unpacking the Ethical Value Alignment in Big Models [46.560886177083084]
本稿では,ビッグモデルに関連するリスクと課題の概要,既存のAI倫理ガイドラインを調査し,これらのモデルの限界から生じる倫理的影響について考察する。
本稿では,大規模モデルの倫理的価値を整合させる新しい概念パラダイムを導入し,アライメント基準,評価,方法に関する有望な研究方向性について議論する。
論文 参考訳(メタデータ) (2023-10-26T16:45:40Z) - Beneficent Intelligence: A Capability Approach to Modeling Benefit,
Assistance, and Associated Moral Failures through AI Systems [12.239090962956043]
AI倫理に関する一般的な言説は、AIシステムが個人と対話する際に生じる多様な倫理的懸念を捉えるのに必要な言語や形式主義を欠いている。
本稿では、利害関係者に有意義な利益や援助を与えるために、AIシステムに必要な倫理的概念と権利のネットワークを定式化する枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-01T22:38:14Z) - Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement
Learning [4.2050490361120465]
ボトムアップ学習アプローチは、AIエージェントの倫理的行動の研究と開発にもっと適しているかもしれない。
本稿では,道徳理論に基づく報酬を内在的に動機づけたRLエージェントによる選択の体系的分析を行う。
我々は、異なる種類の道徳が協力、欠陥、搾取の出現に与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-20T09:36:42Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。