論文の概要: Beyond Ethical Alignment: Evaluating LLMs as Artificial Moral Assistants
- arxiv url: http://arxiv.org/abs/2508.12754v1
- Date: Mon, 18 Aug 2025 09:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.151078
- Title: Beyond Ethical Alignment: Evaluating LLMs as Artificial Moral Assistants
- Title(参考訳): 倫理的アライメントを超えて:LLMを人工モラルアシスタントとして評価する
- Authors: Alessio Galatolo, Luca Alberto Rappuoli, Katie Winkle, Meriem Beloucif,
- Abstract要約: 近年の大規模言語モデル(LLM)の普及は、その道徳的能力に対する懸念を招いている。
本稿では,人工モラルアシスタント(AMA)として機能する能力について検討する。
我々は、AMAとしての資格は、最先端のアライメント技術が達成しようとしているもの以上のものが必要であると主張している。
- 参考スコア(独自算出の注目度): 0.36326779753373206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent rise in popularity of large language models (LLMs) has prompted considerable concerns about their moral capabilities. Although considerable effort has been dedicated to aligning LLMs with human moral values, existing benchmarks and evaluations remain largely superficial, typically measuring alignment based on final ethical verdicts rather than explicit moral reasoning. In response, this paper aims to advance the investigation of LLMs' moral capabilities by examining their capacity to function as Artificial Moral Assistants (AMAs), systems envisioned in the philosophical literature to support human moral deliberation. We assert that qualifying as an AMA requires more than what state-of-the-art alignment techniques aim to achieve: not only must AMAs be able to discern ethically problematic situations, they should also be able to actively reason about them, navigating between conflicting values outside of those embedded in the alignment phase. Building on existing philosophical literature, we begin by designing a new formal framework of the specific kind of behaviour an AMA should exhibit, individuating key qualities such as deductive and abductive moral reasoning. Drawing on this theoretical framework, we develop a benchmark to test these qualities and evaluate popular open LLMs against it. Our results reveal considerable variability across models and highlight persistent shortcomings, particularly regarding abductive moral reasoning. Our work connects theoretical philosophy with practical AI evaluation while also emphasising the need for dedicated strategies to explicitly enhance moral reasoning capabilities in LLMs. Code available at https://github.com/alessioGalatolo/AMAeval
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の普及は、その道徳的能力に対する懸念を招いている。
LLMと人間の道徳的価値観の整合性に多くの努力が注がれているが、既存のベンチマークと評価は大半が表面的であり、通常は明確な道徳的推論ではなく、最終的な倫理的判断に基づいてアライメントを測定する。
そこで本稿は,人間の道徳的熟考を支援するために哲学文献に想定されている,人工モラルアシスタント(AMA)として機能する能力を調べることによって,LLMの道徳的能力の調査を進めることを目的とする。
我々は、AMAとしての資格は、最先端のアライメント技術が目指すもの以上のものを必要としていると主張する。AMAは倫理的に問題のある状況を識別できなければならないだけでなく、アライメントフェーズに埋め込まれたもの以外の矛盾する価値をナビゲートして、積極的にそれらについて考えることもできるべきである。
既存の哲学文献に基づいて、我々は、AMAが提示すべき行動の特定の種類の新しい形式的な枠組みを設計することから始める。
この理論的な枠組みに基づいて、これらの品質をテストし、人気のあるオープン LLM の評価を行うベンチマークを開発する。
以上の結果から, モデル間の相違が顕著であり, 特に帰納的道徳的推論に関して, 持続的な欠点が浮き彫りにされている。
我々の研究は、理論哲学と実践的なAI評価を結びつけると同時に、LLMにおける道徳的推論能力を明確に向上する専用の戦略の必要性を強調している。
https://github.com/alessioGalatolo/AMAevalで利用可能なコード
関連論文リスト
- "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas [11.229443362516207]
本研究は,14大言語モデル(LLM)の包括的実証評価である。
我々は3,780の二項決定と自然言語の正当性を抽出し、決定的断定性、説明的回答の整合性、公的な道徳的整合性、倫理的に無関係な手がかりに対する感受性の軸に沿った分析を可能にした。
我々は、LLMのアライメントにおいて、道徳的推論が主軸となることを主張し、LLMが決定するものだけでなく、どのように、なぜかを評価する標準ベンチマークを要求している。
論文 参考訳(メタデータ) (2025-08-10T10:45:16Z) - Black Box Deployed -- Functional Criteria for Artificial Moral Agents in the LLM Era [0.0]
従来の倫理的基準は、このミスマッチのため、大きな言語モデル(LLM)では実践的に時代遅れである、と論文は主張する。
本稿では,LLMに基づく人工モラルエージェントを評価するための10種類の機能基準を改訂した。
これらのガイドポストは、私たちが「SMA-LLS」と呼ぶものに適用し、よりアライメントを高め、社会的統合を促進することを目的としている。
論文 参考訳(メタデータ) (2025-07-17T14:39:29Z) - Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs [0.0]
道徳的能力は道徳的原則に従って行動する能力である。
大規模言語モデル(LLM)は、道徳的能力を求める状況においてますます展開されているため、この能力を実証的に評価することへの関心が高まっている。
i) 道徳的特徴を明確に強調した事前パッケージ化された道徳的シナリオへの過度な信頼、(ii) 道徳的推論よりも検証予測に焦点をあてること、(iii) 追加情報が必要な時に認識できないモデルの不適切なテスト。
論文 参考訳(メタデータ) (2025-06-16T03:59:38Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [69.85385952436044]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。
M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。
道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文 参考訳(メタデータ) (2024-12-30T05:18:55Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。