論文の概要: Aligning AI With Shared Human Values
- arxiv url: http://arxiv.org/abs/2008.02275v5
- Date: Sat, 24 Jul 2021 04:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 17:28:44.777208
- Title: Aligning AI With Shared Human Values
- Title(参考訳): AIを人的価値で共有する
- Authors: Dan Hendrycks and Collin Burns and Steven Basart and Andrew Critch and
Jerry Li and Dawn Song and Jacob Steinhardt
- Abstract要約: 私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
- 参考スコア(独自算出の注目度): 85.2824609130584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show how to assess a language model's knowledge of basic concepts of
morality. We introduce the ETHICS dataset, a new benchmark that spans concepts
in justice, well-being, duties, virtues, and commonsense morality. Models
predict widespread moral judgments about diverse text scenarios. This requires
connecting physical and social world knowledge to value judgements, a
capability that may enable us to steer chatbot outputs or eventually regularize
open-ended reinforcement learning agents. With the ETHICS dataset, we find that
current language models have a promising but incomplete ability to predict
basic human ethical judgements. Our work shows that progress can be made on
machine ethics today, and it provides a steppingstone toward AI that is aligned
with human values.
- Abstract(参考訳): 道徳の基本概念に関する言語モデルの知識を評価する方法について述べる。
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
モデルは多様なテキストシナリオに関する幅広い道徳的判断を予測する。
これは、物理的および社会的世界の知識を価値判断に結びつけることが必要であり、チャットボットの出力を操縦したり、最終的にはオープンエンドの強化学習エージェントを正規化することができる。
ETHICSデータセットでは、現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全であることがわかった。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
関連論文リスト
- Culturally-Attuned Moral Machines: Implicit Learning of Human Value
Systems by AI through Inverse Reinforcement Learning [11.948092546676687]
AIの価値体系は文化的に直感的であるべきだと我々は主張する。
AIシステムは、人間の観察とインタラクションからこのようなコードを取得するのか、まだ未解決のままだ。
本研究では,ある文化集団の平均行動から学習したAIエージェントが,その集団の行動に反映した利他的特性を得ることができることを示す。
論文 参考訳(メタデータ) (2023-12-29T05:39:10Z) - Learning Human-like Representations to Enable Learning Human Values [11.236150405125754]
我々は,人間とAIエージェントの表現的アライメントが人的価値の学習に与える影響を考察する。
このような表現的アライメントは、パーソナライゼーションの文脈において、人間の価値を安全に学習し、探索する上で有効であることを示す。
論文 参考訳(メタデータ) (2023-12-21T18:31:33Z) - STREAM: Social data and knowledge collective intelligence platform for
TRaining Ethical AI Models [10.356779168071313]
TRaining Ethical AI Models (STREAM)は、AIモデルを人間の道徳的価値と整合させるための総合的なインテリジェンスプラットフォームである。
ストリーミングは、AIモデルの促進を支援する倫理データセットとナレッジベースを提供する。
論文 参考訳(メタデータ) (2023-10-09T09:40:11Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Zero-shot Visual Commonsense Immorality Prediction [8.143750358586072]
道徳的AIシステムへの1つの方法は、人間の社会的行動の模倣と、システムにおけるある種の良い行動を促進することである。
本稿では,視覚的コモンセンスの不道徳をゼロショットで予測するモデルを提案する。
我々は,既存の道徳的・不道徳的なイメージデータセットを用いてモデルを評価し,人間の直観と一致した公正な予測性能を示す。
論文 参考訳(メタデータ) (2022-11-10T12:30:26Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - ValueNet: A New Dataset for Human Value Driven Dialogue System [103.2044265617704]
本稿では,21,374のテキストシナリオに対する人間の態度を含む,ValueNetという大規模人的価値データセットを提案する。
総合的な経験的結果は、学習された価値モデルが幅広い対話作業に有用であることを示している。
ValueNetは、人間の価値モデリングのための最初の大規模テキストデータセットである。
論文 参考訳(メタデータ) (2021-12-12T23:02:52Z) - Delphi: Towards Machine Ethics and Norms [38.8316885346292]
機械倫理と規範に対する4つの根本的な課題を特定します。
私たちのプロトタイプモデルであるDelphiは、言語ベースのコモンセンス道徳的推論の強い可能性を実証しています。
我々は,機械用にカスタマイズされた道徳教科書であるCommonsense Norm Bankを提示する。
論文 参考訳(メタデータ) (2021-10-14T17:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。