論文の概要: MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes
- arxiv url: http://arxiv.org/abs/2510.16380v1
- Date: Sat, 18 Oct 2025 07:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.97462
- Title: MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes
- Title(参考訳): MoReBench: 言語モデルにおける手続き的および多元的モラル推論の評価
- Authors: Yu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine,
- Abstract要約: MoReBench: 1,000のモラルシナリオを紹介します。それぞれが、シナリオを推論するとき、専門家が必須とみなす基準のセットと組み合わせています。
MoReBenchには、道徳的考慮事項の特定、トレードオフの重み付け、行動可能なレコメンデーションなど、23万以上の基準が含まれている。
第二に、MoReBench-Theory: 150の例を使って、AIが規範的倫理の5つの主要なフレームワークで推論できるかどうかを検証します。
- 参考スコア(独自算出の注目度): 31.1183238867944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems progress, we rely more on them to make decisions with us and for us. To ensure that such decisions are aligned with human values, it is imperative for us to understand not only what decisions they make but also how they come to those decisions. Reasoning language models, which provide both final responses and (partially transparent) intermediate thinking traces, present a timely opportunity to study AI procedural reasoning. Unlike math and code problems which often have objectively correct answers, moral dilemmas are an excellent testbed for process-focused evaluation because they allow for multiple defensible conclusions. To do so, we present MoReBench: 1,000 moral scenarios, each paired with a set of rubric criteria that experts consider essential to include (or avoid) when reasoning about the scenarios. MoReBench contains over 23 thousand criteria including identifying moral considerations, weighing trade-offs, and giving actionable recommendations to cover cases on AI advising humans moral decisions as well as making moral decisions autonomously. Separately, we curate MoReBench-Theory: 150 examples to test whether AI can reason under five major frameworks in normative ethics. Our results show that scaling laws and existing benchmarks on math, code, and scientific reasoning tasks fail to predict models' abilities to perform moral reasoning. Models also show partiality towards specific moral frameworks (e.g., Benthamite Act Utilitarianism and Kantian Deontology), which might be side effects of popular training paradigms. Together, these benchmarks advance process-focused reasoning evaluation towards safer and more transparent AI.
- Abstract(参考訳): AIシステムが進むにつれて、私たちと私たちとの意思決定にもっと頼りにしています。
このような決定が人間の価値観と一致していることを保証するためには、どのような決定を下すかだけでなく、その決定にどのような影響を与えるのかを理解することが不可欠です。
最終応答と(部分的に透明な)中間的思考トレースの両方を提供する言語モデルの推論は、AIの手続き的推論を研究するためのタイムリーな機会を提供する。
客観的に正しい答えを持つ数学やコード問題とは異なり、モラルジレンマは複数の証明可能な結論を許容するため、プロセス中心の評価に優れたテストベッドである。
そのために、MoReBench: 1,000のモラルシナリオを紹介します。
MoReBenchには、道徳的考慮事項の特定、トレードオフの重み付け、人間の道徳的決定を助言するAIのケースをカバーするための行動可能な勧告、そして道徳的決定を自律的に行うことを含む、23万以上の基準が含まれている。
第二に、MoReBench-Theory: 150の例を使って、AIが規範的倫理の5つの主要なフレームワークで推論できるかどうかを検証します。
この結果から,数学,コード,科学的推論タスクのスケーリング法則と既存のベンチマークは,道徳的推論を行うためのモデル能力の予測に失敗することが示された。
モデルは特定の道徳的枠組み(例えば、ベンタマイト法(英語版)やカンティアン・デオントロジー)に対する部分性も示しており、これは一般的な訓練パラダイムの副作用である可能性がある。
これらのベンチマークは、プロセス中心の推論評価を、より安全で透明性の高いAIに進める。
関連論文リスト
- The Morality of Probability: How Implicit Moral Biases in LLMs May Shape the Future of Human-AI Symbiosis [33.50773360893016]
本稿では,先導的なAIシステムが道徳的成果をどのように優先するかを検討する。
ケアとヴィルトゥーの価値は最も道徳的に評価され、リバタリアンの選択は一貫して罰せられていた。
また、AIを透明で整合性があり、将来的な共生へと導くための重要な設計原則として、説明可能性と文化意識の必要性を強調している。
論文 参考訳(メタデータ) (2025-09-12T14:37:57Z) - "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas [11.229443362516207]
本研究は,14大言語モデル(LLM)の包括的実証評価である。
我々は3,780の二項決定と自然言語の正当性を抽出し、決定的断定性、説明的回答の整合性、公的な道徳的整合性、倫理的に無関係な手がかりに対する感受性の軸に沿った分析を可能にした。
我々は、LLMのアライメントにおいて、道徳的推論が主軸となることを主張し、LLMが決定するものだけでなく、どのように、なぜかを評価する標準ベンチマークを要求している。
論文 参考訳(メタデータ) (2025-08-10T10:45:16Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - Uncertain Machine Ethics Planning [6.10614292605722]
マシン倫理上の決定は、決定に対する不確実性の影響を考慮すべきである。
結果の評価は1つ以上の道徳理論を呼び起こし、判断に矛盾するかもしれない。
我々は,Sven-Ove Hansson の仮説的ふりかえり法を用いて,この問題を多元的短経路問題として定式化する。
論文 参考訳(メタデータ) (2025-05-07T12:03:15Z) - Why should we ever automate moral decision making? [30.428729272730727]
AIが重大な道徳的意味を持つ決定に関与している場合、懸念が生じる。
道徳的推論は広く受け入れられている枠組みを欠いている。
もう一つのアプローチは、人間の道徳的決定からAIを学ぶことである。
論文 参考訳(メタデータ) (2024-07-10T13:59:22Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。