Fugu-MT 論文翻訳(概要): Moral Foundations of Large Language Models

論文の概要: Moral Foundations of Large Language Models

arxiv url: http://arxiv.org/abs/2310.15337v1
Date: Mon, 23 Oct 2023 20:05:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 21:42:02.160160
Title: Moral Foundations of Large Language Models
Title（参考訳）: 大規模言語モデルの道徳的基礎
Authors: Marwa Abdulhai, Gregory Serapio-Garcia, Cl\'ement Crepy, Daria Valter, John Canny, Natasha Jaques
Abstract要約: 道徳的基礎理論(MFT)は、人間の道徳的推論を5つの要素に分解する心理学的評価ツールである。大規模な言語モデル(LLM)は、インターネットから収集されたデータセットに基づいて訓練されるため、そのようなコーパスに存在するバイアスを反映する可能性がある。本稿では、MFTをレンズとして用いて、人気のあるLLMが特定の道徳的価値観に対して偏見を得たかどうかを分析する。
参考スコア（独自算出の注目度）: 6.6445242437134455
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Moral foundations theory (MFT) is a psychological assessment tool that decomposes human moral reasoning into five factors, including care/harm, liberty/oppression, and sanctity/degradation (Graham et al., 2009). People vary in the weight they place on these dimensions when making moral decisions, in part due to their cultural upbringing and political ideology. As large language models (LLMs) are trained on datasets collected from the internet, they may reflect the biases that are present in such corpora. This paper uses MFT as a lens to analyze whether popular LLMs have acquired a bias towards a particular set of moral values. We analyze known LLMs and find they exhibit particular moral foundations, and show how these relate to human moral foundations and political affiliations. We also measure the consistency of these biases, or whether they vary strongly depending on the context of how the model is prompted. Finally, we show that we can adversarially select prompts that encourage the moral to exhibit a particular set of moral foundations, and that this can affect the model's behavior on downstream tasks. These findings help illustrate the potential risks and unintended consequences of LLMs assuming a particular moral stance.
Abstract（参考訳）: モラル・ファンデーションズ理論(moral foundations theory, mft)は、人間のモラル推論をケア/ハーム、自由/抑圧、聖度/劣化の5つの要因に分解する心理学的評価ツールである(graham et al., 2009)。人々は、文化的な成長と政治的イデオロギーのために、道徳的な決定を行う際に、これらの次元に重みを置きます。大規模な言語モデル(LLM)は、インターネットから収集されたデータセットに基づいて訓練されるため、そのようなコーパスに存在するバイアスを反映することができる。本稿では、MFTをレンズとして用いて、人気のあるLLMが特定の道徳的価値観に対して偏見を得たかどうかを分析する。我々は、既知のLLMを分析し、それらが特定の道徳的基盤を示すことを発見し、それらが人間の道徳的基盤と政治的提携にどのように関係しているかを示す。また、これらのバイアスの一貫性、あるいはモデルがどのように促されるかのコンテキストによって大きく異なるかどうかも測定します。最後に、モラルが特定のモラル基盤のセットを示すように促すプロンプトを反対に選択でき、これが下流タスクにおけるモデルの振る舞いに影響を与える可能性があることを示します。これらの知見は、特定の道徳的スタンスを仮定して、LLMの潜在的なリスクと意図しない結果を示すのに役立つ。

関連論文リスト

Are Language Models Consequentialist or Deontological Moral Reasoners? [69.85385952436044]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文参考訳（メタデータ） (2025-05-27T17:51:18Z)
When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文参考訳（メタデータ） (2025-05-25T16:19:24Z)
Exploring Persona-dependent LLM Alignment for the Moral Machine Experiment [23.7081830844157]
本研究では,道徳機械実験の様々な文脈における社会主導型意思決定と人的判断の整合性について検討した。 LLMのモラル決定は人格によって大きく異なり、人間よりも重要なタスクに対するモラル決定のシフトが大きいことが判明した。道徳的決定を伴うアプリケーションにこれらのモデルを配置する際の倫理的意味とリスクについて論じる。
論文参考訳（メタデータ） (2025-04-15T05:29:51Z)
From Stability to Inconsistency: A Study of Moral Preferences in LLMs [4.12484724941528]
本稿では,Moral Foundations LLM データセット (MFD-LLM) について紹介する。実世界の道徳ジレンマに答えることで,LLMが明らかにした道徳的嗜好のスペクトルをフルに把握する新しい評価手法を提案する。以上の結果から,最先端モデルは極めて均一な値優先性を持つが,一貫性の欠如は明らかである。
論文参考訳（メタデータ） (2025-04-08T11:52:50Z)
The Greatest Good Benchmark: Measuring LLMs' Alignment with Utilitarian Moral Dilemmas [0.3386560551295745]
実用性ジレンマを用いてLLMの道徳的判断を評価する。我々の分析は、確立した道徳理論から分岐し、人口道徳基準を定めている道徳的嗜好を一貫してコード化している。
論文参考訳（メタデータ） (2025-03-25T12:29:53Z)
M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。 M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文参考訳（メタデータ） (2024-12-30T05:18:55Z)
DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life [46.11149958010897]
日常生活で遭遇した1,360の道徳的ジレンマのデータセットであるDailyDilemmasを提示する。それぞれのジレンマは2つの可能なアクションを含み、それぞれのアクションでは、影響を受ける当事者と人間の価値が呼び出される。我々は、社会学、心理学、哲学に触発された5つの一般的な理論のレンズを通して、これらの価値を分析した。
論文参考訳（メタデータ） (2024-10-03T17:08:52Z)
Decoding Multilingual Moral Preferences: Unveiling LLM's Biases Through the Moral Machine Experiment [11.82100047858478]
本稿では,多言語環境下での5つの大規模言語モデルの道徳的嗜好を検討するために,モラルマシン実験(MME)に基づく。我々は、MMEの6500のシナリオを生成し、どのアクションをとるか10言語でモデルを促す。我々の分析によると、全てのLLMはある程度異なる道徳的偏見を阻害し、人間の嗜好と異なるだけでなく、モデル自体の複数の言語にもまたがっている。
論文参考訳（メタデータ） (2024-07-21T14:48:13Z)
Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文参考訳（メタデータ） (2024-05-27T16:49:22Z)
Are Large Language Models Moral Hypocrites? A Study Based on Moral Foundations [0.5278650675825148]
我々は,現在最先端の大規模言語モデル (LLM) が道徳的偽善であるかどうかを検討する。モラル基礎理論に基づく2つの研究機器を採用。
論文参考訳（メタデータ） (2024-05-17T21:27:32Z)
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。強制されない場合、モデルが実質的に異なる答えを与えることを示す。我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文参考訳（メタデータ） (2024-02-26T18:00:49Z)
MoCa: Measuring Human-Language Model Alignment on Causal and Moral Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文参考訳（メタデータ） (2023-10-30T15:57:32Z)
Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-29T15:57:32Z)
ClarifyDelphi: Reinforced Clarification Questions with Defeasibility Rewards for Social and Moral Situations [81.70195684646681]
本稿では,ClarifyDelphiという対話型システムについて紹介する。我々は、潜在的な答えが道徳的判断の多様化に繋がる質問が最も有益であると仮定する。私たちの研究は究極的には、道徳的認知の柔軟性を研究してきた認知科学の研究にインスピレーションを受けています。
論文参考訳（メタデータ） (2022-12-20T16:33:09Z)
Moral Mimicry: Large Language Models Produce Moral Rationalizations Tailored to Political Identity [0.0]
本研究は,アメリカの政治集団に付随する道徳的偏見を,大規模言語モデルが再現するかどうかを考察する。モラル・ファンデーションズ・セオリー(英語版)の道具を用いて、これらのLSMは確かに道徳的な模倣であることを示した。
論文参考訳（メタデータ） (2022-09-24T23:55:53Z)
Identifying Morality Frames in Political Tweets using Relational Learning [27.047907641503762]
道徳的感情はその目標によって動機付けられ、個人または集団的実体に対応することができる。異なる主体に向けられた道徳的態度を組織化するための表現枠組みである道徳的枠組みを導入する。本研究では,関係学習モデルを提案し,実体や道徳的基礎に対する道徳的態度を共同で予測する。
論文参考訳（メタデータ） (2021-09-09T19:48:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。