論文の概要: What are human values, and how do we align AI to them?
- arxiv url: http://arxiv.org/abs/2404.10636v2
- Date: Wed, 17 Apr 2024 16:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:22:00.999190
- Title: What are human values, and how do we align AI to them?
- Title(参考訳): 人間の価値とは何で、AIとどのように一致させるのか?
- Authors: Oliver Klingefjord, Ryan Lowe, Joe Edelman,
- Abstract要約: 我々は、MGE(Moral Graph Elicitation)と呼ばれる値の抽出と調整のプロセスを提案する。
MGEは、参加者に特定の文脈における価値についてインタビューするために、大きな言語モデルを使用する。
我々の結果は、MGEが6つの基準すべてでモデルアライメントを改善することを約束していることを示している。
- 参考スコア(独自算出の注目度): 3.9740568254950084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an emerging consensus that we need to align AI systems with human values (Gabriel, 2020; Ji et al., 2024), but it remains unclear how to apply this to language models in practice. We split the problem of "aligning to human values" into three parts: first, eliciting values from people; second, reconciling those values into an alignment target for training ML models; and third, actually training the model. In this paper, we focus on the first two parts, and ask the question: what are "good" ways to synthesize diverse human inputs about values into a target for aligning language models? To answer this question, we first define a set of 6 criteria that we believe must be satisfied for an alignment target to shape model behavior in accordance with human values. We then propose a process for eliciting and reconciling values called Moral Graph Elicitation (MGE), which uses a large language model to interview participants about their values in particular contexts; our approach is inspired by the philosophy of values advanced by Taylor (1977), Chang (2004), and others. We trial MGE with a representative sample of 500 Americans, on 3 intentionally divisive prompts (e.g. advice about abortion). Our results demonstrate that MGE is promising for improving model alignment across all 6 criteria. For example, almost all participants (89.1%) felt well represented by the process, and (89%) thought the final moral graph was fair, even if their value wasn't voted as the wisest. Our process often results in "expert" values (e.g. values from women who have solicited abortion advice) rising to the top of the moral graph, without defining who is considered an expert in advance.
- Abstract(参考訳): AIシステムを人間の価値と整合させる必要があるという意見(Gabriel, 2020; Ji et al , 2024)が浮上している。
まず、人から価値を引き出すこと、第2に、これらの価値をMLモデルをトレーニングするためのアライメントターゲットに調整すること、第3に、モデルを実際にトレーニングすることである。
本稿では,最初の2つの部分に焦点をあてて質問する: 価値に関する多様な人間の入力を,言語モデルを整合させるターゲットに合成する"よい"方法は何か?
この問いに答えるために、まず、人間の値に応じてモデル行動を形成するためのアライメント対象に対して満足すべき6つの基準のセットを定義する。
そこで我々は,MGE (Moral Graph Elicitation) と呼ばれる,大きな言語モデルを用いて,参加者に特定の文脈における価値をインタビューする手法を提案し,そのアプローチはTaylor (1977), Chang (2004) などによる価値の哲学に着想を得た。
我々はMGEを500人のアメリカ人の代表例で、故意に分けた3つのプロンプト(中絶に関するアドバイスなど)で試行する。
我々の結果は、MGEが6つの基準すべてでモデルアライメントを改善することを約束していることを示している。
例えば、ほとんどの参加者 (89.1%) はプロセスによってうまく表現されていると感じ、そして (89%) は最終的な道徳グラフが公平であると考えた。
私たちのプロセスは、前もって専門家と見なされる人物を定義することなく、しばしば「専門家」の価値観(例えば、中絶の助言を要請した女性の価値観)を道徳グラフの一番上に上げます。
関連論文リスト
- ValueCompass: A Framework of Fundamental Values for Human-AI Alignment [15.35489011078817]
本稿では,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるバリューを紹介する。
本研究では,人間と言語モデル(LM)の価値アライメントを測定するために,実世界の4つのヴィグネットに価値を適用した。
以下に示すのは、人間とLMの危険な相違を明らかにすることであり、例えば、LMは人間によってほとんど意見が一致しない「自己のゴール」のような価値観と一致している。
論文 参考訳(メタデータ) (2024-09-15T02:13:03Z) - What Makes it Ok to Set a Fire? Iterative Self-distillation of Contexts
and Rationales for Disambiguating Defeasible Social and Moral Situations [48.686872351114964]
道徳的または倫理的な判断は、それらが起こる特定の文脈に大きく依存する。
我々は,行動が多かれ少なかれ道徳的に容認されるような,根底的な文脈を提供するという,デファシブルな道徳的推論を導入する。
文脈化と論理の1.2M項目からなる高品質なデータセットを115Kデファシブルな道徳行動のために蒸留する。
論文 参考訳(メタデータ) (2023-10-24T00:51:29Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - ValueNet: A New Dataset for Human Value Driven Dialogue System [103.2044265617704]
本稿では,21,374のテキストシナリオに対する人間の態度を含む,ValueNetという大規模人的価値データセットを提案する。
総合的な経験的結果は、学習された価値モデルが幅広い対話作業に有用であることを示している。
ValueNetは、人間の価値モデリングのための最初の大規模テキストデータセットである。
論文 参考訳(メタデータ) (2021-12-12T23:02:52Z) - Delphi: Towards Machine Ethics and Norms [38.8316885346292]
機械倫理と規範に対する4つの根本的な課題を特定します。
私たちのプロトタイプモデルであるDelphiは、言語ベースのコモンセンス道徳的推論の強い可能性を実証しています。
我々は,機械用にカスタマイズされた道徳教科書であるCommonsense Norm Bankを提示する。
論文 参考訳(メタデータ) (2021-10-14T17:38:12Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。