論文の概要: The Greatest Good Benchmark: Measuring LLMs' Alignment with Utilitarian Moral Dilemmas
- arxiv url: http://arxiv.org/abs/2503.19598v1
- Date: Tue, 25 Mar 2025 12:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:12.119669
- Title: The Greatest Good Benchmark: Measuring LLMs' Alignment with Utilitarian Moral Dilemmas
- Title(参考訳): The Greatest Good Benchmark: Measurementing LLMs'alignment with Utilitarian Moral Dilemmas
- Authors: Giovanni Franco Gabriel Marraffini, Andrés Cotton, Noe Fabian Hsueh, Axel Fridman, Juan Wisznia, Luciano Del Corro,
- Abstract要約: 実用性ジレンマを用いてLLMの道徳的判断を評価する。
我々の分析は、確立した道徳理論から分岐し、人口道徳基準を定めている道徳的嗜好を一貫してコード化している。
- 参考スコア(独自算出の注目度): 0.3386560551295745
- License:
- Abstract: The question of how to make decisions that maximise the well-being of all persons is very relevant to design language models that are beneficial to humanity and free from harm. We introduce the Greatest Good Benchmark to evaluate the moral judgments of LLMs using utilitarian dilemmas. Our analysis across 15 diverse LLMs reveals consistently encoded moral preferences that diverge from established moral theories and lay population moral standards. Most LLMs have a marked preference for impartial beneficence and rejection of instrumental harm. These findings showcase the 'artificial moral compass' of LLMs, offering insights into their moral alignment.
- Abstract(参考訳): すべての人の幸福を最大化する決定をどうやって行うかという問題は、人類にとって有益で害のない言語モデルの設計に非常に関係している。
実用的ジレンマを用いてLLMの道徳的判断を評価するために, ベスト・グッド・ベンチマークを導入する。
15の多様なLCMを対象とする分析では、確立された道徳理論から逸脱し、人口道徳基準を定めている道徳的嗜好が一貫してコード化されていることが明らかになっている。
ほとんどのLSMは、器質的害の公平さと拒絶を顕著に好んでいる。
これらの知見は、LLMの「芸術的道徳的コンパス」を示し、その道徳的アライメントに関する洞察を与えている。
関連論文リスト
- Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T01:29:46Z) - M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。
M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。
道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文 参考訳(メタデータ) (2024-12-30T05:18:55Z) - Right vs. Right: Can LLMs Make Tough Choices? [12.92528740921513]
倫理的ジレンマは、道徳的価値の矛盾を含む2つの「正しい」選択肢の選択を記述する。
LLMが倫理ジレンマをどのようにナビゲートするかを包括的に評価する。
我々は、4組の矛盾する値を含む1,730の倫理ジレンマからなるデータセットを構築した。
論文 参考訳(メタデータ) (2024-12-27T21:20:45Z) - ClarityEthic: Explainable Moral Judgment Utilizing Contrastive Ethical Insights from Large Language Models [30.301864398780648]
我々は、LLMの推論能力と対照的な学習を活用して関連する社会的規範を明らかにする、textitEthicと呼ばれる新しい道徳的判断手法を導入する。
本手法は,道徳的判断課題における最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T12:22:44Z) - DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life [46.11149958010897]
日常生活で遭遇した1,360の道徳的ジレンマのデータセットであるDailyDilemmasを提示する。
それぞれのジレンマは、影響された当事者と、それぞれの行動に関する関連する人間の価値の2つの可能な行動を示す。
我々は社会学、心理学、哲学に触発された5つの理論的枠組みのレンズを通して価値を分析する。
論文 参考訳(メタデータ) (2024-10-03T17:08:52Z) - Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか?
その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文 参考訳(メタデータ) (2024-09-23T17:58:07Z) - MoralBench: Moral Evaluation of LLMs [34.43699121838648]
本稿では,大規模言語モデル(LLM)の道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。
LLMの出力の道徳的次元を探索するために特別に計算された最初の包括的データセットを示す。
本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。
論文 参考訳(メタデータ) (2024-06-06T18:15:01Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Moral Foundations of Large Language Models [6.6445242437134455]
道徳的基礎理論(MFT)は、人間の道徳的推論を5つの要素に分解する心理学的評価ツールである。
大規模な言語モデル(LLM)は、インターネットから収集されたデータセットに基づいて訓練されるため、そのようなコーパスに存在するバイアスを反映する可能性がある。
本稿では、MFTをレンズとして用いて、人気のあるLLMが特定の道徳的価値観に対して偏見を得たかどうかを分析する。
論文 参考訳(メタデータ) (2023-10-23T20:05:37Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。