論文の概要: MoralReason: Generalizable Moral Decision Alignment For LLM Agents Using Reasoning-Level Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.12271v1
- Date: Sat, 15 Nov 2025 15:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.793035
- Title: MoralReason: Generalizable Moral Decision Alignment For LLM Agents Using Reasoning-Level Reinforcement Learning
- Title(参考訳): MoralReason:Reasoning-Level Reinforcement Learningを用いたLLMエージェントのための一般化可能なモーラル決定アライメント
- Authors: Zhiyu An, Wan Du,
- Abstract要約: そこで,Moral-Reason-QAを提案する。このデータセットは,フレームワーク固有の推論トレースを備えた,680人の注釈付き高曖昧なモラルシナリオを拡張したデータセットである。
我々の学習アプローチでは、意思決定アライメントとフレームワーク固有の推論プロセスを同時に最適化する複合報酬を備えたグループ相対ポリシー最適化を採用しています。
- 参考スコア(独自算出の注目度): 7.764532811300023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly influencing human moral decisions, yet current approaches focus primarily on evaluating rather than actively steering their moral decisions. We formulate this as an out-of-distribution moral alignment problem, where LLM agents must learn to apply consistent moral reasoning frameworks to scenarios beyond their training distribution. We introduce Moral-Reason-QA, a novel dataset extending 680 human-annotated, high-ambiguity moral scenarios with framework-specific reasoning traces across utilitarian, deontological, and virtue ethics, enabling systematic evaluation of moral generalization in realistic decision contexts. Our learning approach employs Group Relative Policy Optimization with composite rewards that simultaneously optimize decision alignment and framework-specific reasoning processes to facilitate learning of the underlying moral frameworks. Experimental results demonstrate successful generalization to unseen moral scenarios, with softmax-normalized alignment scores improving by +0.757 for utilitarian and +0.450 for deontological frameworks when tested on out-of-distribution evaluation sets. The experiments also reveal training challenges and promising directions that inform future research. These findings establish that LLM agents can be systematically trained to internalize and apply specific moral frameworks to novel situations, providing a critical foundation for AI safety as language models become more integrated into human decision-making processes.
- Abstract(参考訳): 大規模な言語モデルは、ますます人間の道徳的決定に影響を与えるが、現在のアプローチは、道徳的決定を積極的に管理するのではなく、主に評価に焦点を当てている。
我々はこれを、LLMエージェントがトレーニング分布を超えたシナリオに一貫した道徳的推論フレームワークを適用することを学ばなければならない、アウト・オブ・ディストリビューションのモラルアライメント問題として定式化する。
現実的な意思決定文脈における道徳的一般化の体系的評価を可能にするために, 実用性, 脱オントロジー, 美徳倫理にまたがるフレームワーク固有の推論トレースを用いて, 680人の人称的・曖昧な道徳的シナリオを拡張した新しいデータセットであるMoral-Reason-QAを紹介した。
我々の学習アプローチでは、意思決定アライメントとフレームワーク固有の推論プロセスを同時に最適化し、基礎となる道徳的枠組みの学習を容易にする、グループ相対政策最適化を採用しています。
実験結果から,非分布な道徳的シナリオへの一般化が成功し,ソフトマックス正規化アライメントスコアは実用性は+0.757,非分布性評価セットでは+0.450に向上した。
この実験はまた、将来の研究を知らせるトレーニングの課題と有望な方向性を明らかにしている。
これらの結果は、LLMエージェントを体系的に訓練して、特定の道徳的枠組みを新たな状況に適用し、言語モデルが人間の意思決定プロセスに統合されるにつれて、AIの安全性にとって重要な基盤となることを証明している。
関連論文リスト
- Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - The Staircase of Ethics: Probing LLM Value Priorities through Multi-Step Induction to Complex Moral Dilemmas [20.792208554628367]
我々は多段階モラルジレンマデータセットを導入し,3,302個の5段階ジレンマのLLMの進化的道徳的判断を評価する。
このフレームワークは、LLMがジレンマをエスカレートする際の道徳的推論をどのように調整するかを、きめ細やかな動的解析を可能にする。
我々の研究は、動的で文脈に配慮した評価パラダイムへのシフトを呼びかけ、LLMのより人間らしく価値に敏感な開発への道を開いた。
論文 参考訳(メタデータ) (2025-05-23T17:59:50Z) - The Convergent Ethics of AI? Analyzing Moral Foundation Priorities in Large Language Models with a Multi-Framework Approach [6.0972634521845475]
本稿では,Reasoning and Intrinsic Moral Evaluation (PRIME)フレームワークについて紹介する。
PRIMEは、基本的な倫理的側面をまたいだ倫理的優先順位を分析するための包括的な方法論である。
我々はこのフレームワークを6つの主要な大規模言語モデル (LLM) に適用する。
論文 参考訳(メタデータ) (2025-04-27T14:26:48Z) - Diagnosing Moral Reasoning Acquisition in Language Models: Pragmatics and Generalization [9.960599187582405]
大規模言語モデル(LLM)は、道徳的認識を必要とするタスクで満足に機能しないことが多い。
現在の学習パラダイムは、LLMが十分な道徳的推論能力を得ることができるか?
性能改善は意味レベルの課題に類似したメカニズムを踏襲し,言論における潜在道徳の実践的性質の影響を受け続けることを示す。
論文 参考訳(メタデータ) (2025-02-23T15:00:53Z) - Addressing Moral Uncertainty using Large Language Models for Ethical Decision-Making [0.42481744176244507]
本稿では,タスクに依存しない倫理的レイヤを用いて,事前学習された強化学習(RL)モデルを洗練する倫理的意思決定フレームワークを提案する。
倫理的階層は、Jensen-Shannon Divergence と Dempster-Shafer Theory を用いて複数の道徳的観点から信念のスコアを集約する。
この統合学習フレームワークは、複雑な環境においてRLエージェントが道徳的不確実性をナビゲートし、様々なタスクにおいて道徳的に健全な決定を可能にする。
論文 参考訳(メタデータ) (2025-02-17T19:05:55Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。