論文の概要: Learning to Diagnose and Correct Moral Errors: Towards Enhancing Moral Sensitivity in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.03079v1
- Date: Tue, 06 Jan 2026 15:09:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.985124
- Title: Learning to Diagnose and Correct Moral Errors: Towards Enhancing Moral Sensitivity in Large Language Models
- Title(参考訳): モーラルエラーの診断と修正の学習--大規模言語モデルにおけるモラル感性向上を目指して
- Authors: Bocheng Chen, Han Zi, Xi Chen, Xitong Zhang, Kristen Johnson, Guangliang Liu,
- Abstract要約: 道徳的良性および有害な入力を診断し,道徳的誤りを正すために,LLMをファシリケートする2つの実用的推論手法を提案する。
実用的推論手法の中心的な強みは、その推論手法を推論負荷に基づいて設計するための統一的な視点である。
- 参考スコア(独自算出の注目度): 8.691489065712316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moral sensitivity is fundamental to human moral competence, as it guides individuals in regulating everyday behavior. Although many approaches seek to align large language models (LLMs) with human moral values, how to enable them morally sensitive has been extremely challenging. In this paper, we take a step toward answering the question: how can we enhance moral sensitivity in LLMs? Specifically, we propose two pragmatic inference methods that faciliate LLMs to diagnose morally benign and hazardous input and correct moral errors, whereby enhancing LLMs' moral sensitivity. A central strength of our pragmatic inference methods is their unified perspective: instead of modeling moral discourses across semantically diverse and complex surface forms, they offer a principled perspective for designing pragmatic inference procedures grounded in their inferential loads. Empirical evidence demonstrates that our pragmatic methods can enhance moral sensitivity in LLMs and achieves strong performance on representative morality-relevant benchmarks.
- Abstract(参考訳): 道徳的感受性は人間の道徳的能力の基本であり、日々の行動を規定する個人を導く。
多くのアプローチは、大きな言語モデル(LLM)と人間の道徳的価値を一致させようとしているが、それらを道徳的に敏感にする方法は非常に難しい。
本稿では,LLMの道徳的感受性を高めるにはどうすればよいのか,という疑問に答えるための一歩を踏み出す。
具体的には、LLMの道徳的感度を高めることによって、道徳的良性および有害な入力と正しい道徳的誤りを診断する2つの実用的推論手法を提案する。
意味論的に多様で複雑な表面形態の道徳的言説をモデル化する代わりに、それらの推論手法を推論負荷に基づいて設計するための原則的な視点を提供する。
実証的な証拠は、我々の実用的手法がLLMのモラル感度を高め、代表的モラル関連ベンチマークで高い性能を達成することを証明している。
関連論文リスト
- Beyond Ethical Alignment: Evaluating LLMs as Artificial Moral Assistants [0.36326779753373206]
近年の大規模言語モデル(LLM)の普及は、その道徳的能力に対する懸念を招いている。
本稿では,人工モラルアシスタント(AMA)として機能する能力について検討する。
我々は、AMAとしての資格は、最先端のアライメント技術が達成しようとしているもの以上のものが必要であると主張している。
論文 参考訳(メタデータ) (2025-08-18T09:28:55Z) - Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs [0.14963505712040906]
道徳的能力は道徳的原則に従って行動する能力である。
大規模言語モデル(LLM)は、道徳的能力を求める状況においてますます展開されているため、この能力を実証的に評価することへの関心が高まっている。
i) 道徳的特徴を明確に強調した事前パッケージ化された道徳的シナリオへの過度な信頼、(ii) 道徳的推論よりも検証予測に焦点をあてること、(iii) 追加情報が必要な時に認識できないモデルの不適切なテスト。
論文 参考訳(メタデータ) (2025-06-16T03:59:38Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - ClarityEthic: Explainable Moral Judgment Utilizing Contrastive Ethical Insights from Large Language Models [30.301864398780648]
我々は、LLMの推論能力と対照的な学習を活用して関連する社会的規範を明らかにする、textitEthicと呼ばれる新しい道徳的判断手法を導入する。
本手法は,道徳的判断課題における最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T12:22:44Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。