論文の概要: Learning Machine Morality through Experience and Interaction
- arxiv url: http://arxiv.org/abs/2312.01818v1
- Date: Mon, 4 Dec 2023 11:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-05 15:29:02.045765
- Title: Learning Machine Morality through Experience and Interaction
- Title(参考訳): 経験と相互作用による機械学習のモラル学習
- Authors: Elizaveta Tennant, Stephen Hailes, Mirco Musolesi
- Abstract要約: 次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
我々は、適応可能で堅牢だが、より制御可能で解釈可能なエージェントを作成するために、よりハイブリッドなソリューションが必要であると論じている。
- 参考スコア(独自算出の注目度): 4.2050490361120465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Increasing interest in ensuring safety of next-generation Artificial
Intelligence (AI) systems calls for novel approaches to embedding morality into
autonomous agents. Traditionally, this has been done by imposing explicit
top-down rules or hard constraints on systems, for example by filtering system
outputs through pre-defined ethical rules. Recently, instead, entirely
bottom-up methods for learning implicit preferences from human behavior have
become increasingly popular, such as those for training and fine-tuning Large
Language Models. In this paper, we provide a systematization of existing
approaches to the problem of introducing morality in machines - modeled as a
continuum, and argue that the majority of popular techniques lie at the
extremes - either being fully hard-coded, or entirely learned, where no
explicit statement of any moral principle is required. Given the relative
strengths and weaknesses of each type of methodology, we argue that more hybrid
solutions are needed to create adaptable and robust, yet more controllable and
interpretable agents.
In particular, we present three case studies of recent works which use
learning from experience (i.e., Reinforcement Learning) to explicitly provide
moral principles to learning agents - either as intrinsic rewards, moral
logical constraints or textual principles for language models. For example,
using intrinsic rewards in Social Dilemma games, we demonstrate how it is
possible to represent classical moral frameworks for agents. We also present an
overview of the existing work in this area in order to provide empirical
evidence for the potential of this hybrid approach. We then discuss strategies
for evaluating the effectiveness of moral learning agents. Finally, we present
open research questions and implications for the future of AI safety and ethics
which are emerging from this framework.
- Abstract(参考訳): 次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
伝統的にこれは、事前定義された倫理的ルールを通じてシステム出力をフィルタリングすることで、明示的なトップダウンルールやハード制約をシステムに課すことで行われてきた。
近年、人間の行動から暗黙の好みを学ぶためのボトムアップの手法が、トレーニングや大規模言語モデルの微調整など、一般的になってきている。
本稿では,機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。これは連続体としてモデル化され,一般的なテクニックの大部分が,完全にハードコードされているか,完全に学習されているかのいずれかであり,道徳原理の明示的な記述は不要である,と論じる。
それぞれの方法論の相対的な長所と短所を考えると、適応可能で堅牢だが制御可能で解釈可能なエージェントを作るためには、よりハイブリッドなソリューションが必要であると論じる。
特に,経験からの学習(即ち強化学習)を用いて,内在的な報酬,道徳的論理的制約,言語モデルのためのテクスト的原則など,学習エージェントに道徳的な原則を明示的に提供する最近の作品の3つのケーススタディについて述べる。
例えば、社会ジレンマゲームにおける本質的な報酬を用いて、エージェントに対する古典的な道徳的枠組みをいかに表現できるかを示す。
また、このハイブリッドアプローチの可能性に関する実証的な証拠を提供するため、この分野における既存の作業の概要を示す。
次に、道徳学習エージェントの有効性を評価するための戦略について議論する。
最後に、この枠組みから生まれたAIの安全性と倫理の将来について、オープンな研究の疑問と示唆を示す。
関連論文リスト
- Technology as uncharted territory: Contextual integrity and the notion of AI as new ethical ground [55.2480439325792]
私は、責任と倫理的AIを促進する努力が、確立された文脈規範に対するこの軽視に必然的に貢献し、正当化することができると論じます。
私は、道徳的保護よりも道徳的革新のAI倫理における現在の狭い優先順位付けに疑問を呈する。
論文 参考訳(メタデータ) (2024-12-06T15:36:13Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - The Switch, the Ladder, and the Matrix: Models for Classifying AI Systems [0.0]
AI倫理の原則と実践の間にはまだギャップがある。
AI倫理を運用しようとする組織が直面する大きな障害のひとつは、明確に定義された材料スコープの欠如である。
論文 参考訳(メタデータ) (2024-07-07T12:16:01Z) - Dynamic Normativity: Necessary and Sufficient Conditions for Value Alignment [0.0]
我々は,人的目標と価値を人工システムで従うことができるような方法で表現する上での課題に,不必要な敵意を伴わない「調整」の問題を見出した。
この研究は、AIシステム開発に規範的理論をもたらす、しっかりとした哲学的基礎と実践的な実装を必要とする技術的哲学的問題としてのアライメントに対処する。
論文 参考訳(メタデータ) (2024-06-16T18:37:31Z) - Unpacking the Ethical Value Alignment in Big Models [46.560886177083084]
本稿では,ビッグモデルに関連するリスクと課題の概要,既存のAI倫理ガイドラインを調査し,これらのモデルの限界から生じる倫理的影響について考察する。
本稿では,大規模モデルの倫理的価値を整合させる新しい概念パラダイムを導入し,アライメント基準,評価,方法に関する有望な研究方向性について議論する。
論文 参考訳(メタデータ) (2023-10-26T16:45:40Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Beneficent Intelligence: A Capability Approach to Modeling Benefit,
Assistance, and Associated Moral Failures through AI Systems [12.239090962956043]
AI倫理に関する一般的な言説は、AIシステムが個人と対話する際に生じる多様な倫理的懸念を捉えるのに必要な言語や形式主義を欠いている。
本稿では、利害関係者に有意義な利益や援助を与えるために、AIシステムに必要な倫理的概念と権利のネットワークを定式化する枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-01T22:38:14Z) - From computational ethics to morality: how decision-making algorithms
can help us understand the emergence of moral principles, the existence of an
optimal behaviour and our ability to discover it [0.0]
本稿では, 道徳の自然化に向けた進化倫理の取り組みを, 計算倫理観から導かれた洞察を提供することによって追加する。
本稿では,強化学習に基づく人的意思決定のスタイリングモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T14:39:08Z) - Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement
Learning [4.2050490361120465]
ボトムアップ学習アプローチは、AIエージェントの倫理的行動の研究と開発にもっと適しているかもしれない。
本稿では,道徳理論に基づく報酬を内在的に動機づけたRLエージェントによる選択の体系的分析を行う。
我々は、異なる種類の道徳が協力、欠陥、搾取の出現に与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-20T09:36:42Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z) - Reinforcement Learning Under Moral Uncertainty [13.761051314923634]
機械学習の野心的な目標は、倫理的に振る舞うエージェントを作ることだ。
倫理的エージェントは、特定の道徳理論の下で正しい行動に報いることによって訓練することができるが、道徳性の本質について広く意見の相違がある。
本稿では、競合するデシダラタの異なる点を実現するための2つのトレーニング手法を提案し、モラルの不確実性の下で行動するための単純な環境におけるエージェントを訓練する。
論文 参考訳(メタデータ) (2020-06-08T16:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。