論文の概要: Moral Foundations of Large Language Models
- arxiv url: http://arxiv.org/abs/2310.15337v1
- Date: Mon, 23 Oct 2023 20:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:42:02.160160
- Title: Moral Foundations of Large Language Models
- Title(参考訳): 大規模言語モデルの道徳的基礎
- Authors: Marwa Abdulhai, Gregory Serapio-Garcia, Cl\'ement Crepy, Daria Valter,
John Canny, Natasha Jaques
- Abstract要約: 道徳的基礎理論(MFT)は、人間の道徳的推論を5つの要素に分解する心理学的評価ツールである。
大規模な言語モデル(LLM)は、インターネットから収集されたデータセットに基づいて訓練されるため、そのようなコーパスに存在するバイアスを反映する可能性がある。
本稿では、MFTをレンズとして用いて、人気のあるLLMが特定の道徳的価値観に対して偏見を得たかどうかを分析する。
- 参考スコア(独自算出の注目度): 6.6445242437134455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moral foundations theory (MFT) is a psychological assessment tool that
decomposes human moral reasoning into five factors, including care/harm,
liberty/oppression, and sanctity/degradation (Graham et al., 2009). People vary
in the weight they place on these dimensions when making moral decisions, in
part due to their cultural upbringing and political ideology. As large language
models (LLMs) are trained on datasets collected from the internet, they may
reflect the biases that are present in such corpora. This paper uses MFT as a
lens to analyze whether popular LLMs have acquired a bias towards a particular
set of moral values. We analyze known LLMs and find they exhibit particular
moral foundations, and show how these relate to human moral foundations and
political affiliations. We also measure the consistency of these biases, or
whether they vary strongly depending on the context of how the model is
prompted. Finally, we show that we can adversarially select prompts that
encourage the moral to exhibit a particular set of moral foundations, and that
this can affect the model's behavior on downstream tasks. These findings help
illustrate the potential risks and unintended consequences of LLMs assuming a
particular moral stance.
- Abstract(参考訳): モラル・ファンデーションズ理論(moral foundations theory, mft)は、人間のモラル推論をケア/ハーム、自由/抑圧、聖度/劣化の5つの要因に分解する心理学的評価ツールである(graham et al., 2009)。
人々は、文化的な成長と政治的イデオロギーのために、道徳的な決定を行う際に、これらの次元に重みを置きます。
大規模な言語モデル(LLM)は、インターネットから収集されたデータセットに基づいて訓練されるため、そのようなコーパスに存在するバイアスを反映することができる。
本稿では、MFTをレンズとして用いて、人気のあるLLMが特定の道徳的価値観に対して偏見を得たかどうかを分析する。
我々は、既知のLLMを分析し、それらが特定の道徳的基盤を示すことを発見し、それらが人間の道徳的基盤と政治的提携にどのように関係しているかを示す。
また、これらのバイアスの一貫性、あるいはモデルがどのように促されるかのコンテキストによって大きく異なるかどうかも測定します。
最後に、モラルが特定のモラル基盤のセットを示すように促すプロンプトを反対に選択でき、これが下流タスクにおけるモデルの振る舞いに影響を与える可能性があることを示します。
これらの知見は、特定の道徳的スタンスを仮定して、LLMの潜在的なリスクと意図しない結果を示すのに役立つ。
関連論文リスト
- MOKA: Moral Knowledge Augmentation for Moral Event Extraction [8.54193963742934]
ニュースメディアは、記憶に残る物語を作るために道徳的な言葉を取り入れており、読者はしばしば彼らの価値観に沿ったコンテンツに携わる。
道徳的価値を単独で研究するニュース分析に道徳理論が適用され、その一方で、道徳的な出来事を形作る際の参加者間のダイナミクスは見過ごされている。
これは主に、明らかなイデオロギーと価値を隠すために不明瞭な言語を使うことと、既存のほとんどのNLPシステムにおける道徳的推論能力の不足が原因である。
本稿では,モラル知識を付加したモラルイベント抽出フレームワークであるMokaを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:04:49Z) - Navigating the Ocean of Biases: Political Bias Attribution in Language
Models via Causal Structures [58.059631072902356]
我々は、LLMの価値観を批判したり、検証したりせず、どのようにして「良い議論」を解釈し、偏見づけるかを見極めることを目的としている。
本研究では,活動依存ネットワーク(ADN)を用いてLCMの暗黙的基準を抽出する。
人-AIアライメントとバイアス緩和について,本研究の結果について考察した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - LLMs grasp morality in concept [0.46040036610482665]
我々は人間を超えて広がる意味の一般的な理論を提供する。
我々は,LLMが意味エージェントとしての地位から,すでに人間の社会の構造を把握していることを示唆している。
不整合モデルは、道徳的および社会的哲学をより良く発展させるのに役立つかもしれない。
論文 参考訳(メタデータ) (2023-11-04T01:37:41Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - What Makes it Ok to Set a Fire? Iterative Self-distillation of Contexts
and Rationales for Disambiguating Defeasible Social and Moral Situations [48.686872351114964]
道徳的または倫理的な判断は、それらが起こる特定の文脈に大きく依存する。
我々は,行動が多かれ少なかれ道徳的に容認されるような,根底的な文脈を提供するという,デファシブルな道徳的推論を導入する。
文脈化と論理の1.2M項目からなる高品質なデータセットを115Kデファシブルな道徳行動のために蒸留する。
論文 参考訳(メタデータ) (2023-10-24T00:51:29Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through
the Lens of Moral Theories? [82.30392883508925]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチはボトムアップ方式で実装されている。
トップダウンのアプローチは、一連の原則に基づく道徳的な判断を下します。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - ClarifyDelphi: Reinforced Clarification Questions with Defeasibility
Rewards for Social and Moral Situations [81.70195684646681]
本稿では,ClarifyDelphiという対話型システムについて紹介する。
我々は、潜在的な答えが道徳的判断の多様化に繋がる質問が最も有益であると仮定する。
私たちの研究は究極的には、道徳的認知の柔軟性を研究してきた認知科学の研究にインスピレーションを受けています。
論文 参考訳(メタデータ) (2022-12-20T16:33:09Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Moral Mimicry: Large Language Models Produce Moral Rationalizations
Tailored to Political Identity [0.0]
本研究は,アメリカの政治集団に付随する道徳的偏見を,大規模言語モデルが再現するかどうかを考察する。
モラル・ファンデーションズ・セオリー(英語版)の道具を用いて、これらのLSMは確かに道徳的な模倣であることを示した。
論文 参考訳(メタデータ) (2022-09-24T23:55:53Z) - Identifying Morality Frames in Political Tweets using Relational
Learning [27.047907641503762]
道徳的感情はその目標によって動機付けられ、個人または集団的実体に対応することができる。
異なる主体に向けられた道徳的態度を組織化するための表現枠組みである道徳的枠組みを導入する。
本研究では,関係学習モデルを提案し,実体や道徳的基礎に対する道徳的態度を共同で予測する。
論文 参考訳(メタデータ) (2021-09-09T19:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。