論文の概要: When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas
- arxiv url: http://arxiv.org/abs/2505.19212v1
- Date: Sun, 25 May 2025 16:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.981824
- Title: When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas
- Title(参考訳): 倫理とペイオフが多様化する時: 社会的ジレンマにおけるLCMエージェント
- Authors: Steffen Backmann, David Guzman Piedrahita, Emanuel Tewolde, Rada Mihalcea, Bernhard Schölkopf, Zhijing Jin,
- Abstract要約: 大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
- 参考スコア(独自算出の注目度): 68.79830818369683
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled their use in complex agentic roles, involving decision-making with humans or other agents, making ethical alignment a key AI safety concern. While prior work has examined both LLMs' moral judgment and strategic behavior in social dilemmas, there is limited understanding of how they act when moral imperatives directly conflict with rewards or incentives. To investigate this, we introduce Moral Behavior in Social Dilemma Simulation (MoralSim) and evaluate how LLMs behave in the prisoner's dilemma and public goods game with morally charged contexts. In MoralSim, we test a range of frontier models across both game structures and three distinct moral framings, enabling a systematic examination of how LLMs navigate social dilemmas in which ethical norms conflict with payoff-maximizing strategies. Our results show substantial variation across models in both their general tendency to act morally and the consistency of their behavior across game types, the specific moral framing, and situational factors such as opponent behavior and survival risks. Crucially, no model exhibits consistently moral behavior in MoralSim, highlighting the need for caution when deploying LLMs in agentic roles where the agent's "self-interest" may conflict with ethical expectations. Our code is available at https://github.com/sbackmann/moralsim.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にし、倫理的アライメントがAIの安全性の重要な懸念事項となっている。
以前の研究は、LLMの道徳的判断と社会的ジレンマにおける戦略的行動の両方を調べてきたが、道徳的命令が報酬やインセンティブと直接衝突した場合の行動の理解は限られている。
そこで本研究では,社会ジレンマシミュレーションにおけるモラル行動(Moral Behavior in Social Dilemma Simulation, モラルシム)を導入し, 道徳的な文脈で, 囚人のジレンマゲームや公共グッズゲームにおいてLLMがどのように振る舞うかを評価する。
MoralSimでは、ゲーム構造と3つの異なる道徳的フレーミングの異なるフロンティアモデルをテストし、倫理的規範がペイオフ最大化戦略と矛盾する社会的ジレンマをLLMがどうナビゲートするかを体系的に検証する。
本研究の結果は, ゲームタイプ, 特定のモラル・フレーミング, 対戦行動や生存リスクといった状況要因の両面において, 道徳的行動の傾向と行動の整合性の両方において, モデル間で有意な変動が認められた。
重要なことに、モラルシムにおいて一貫して道徳的行動を示すモデルはなく、エージェントの「自己関心」が倫理的期待と矛盾する可能性のあるエージェント的役割にLSMを配置する際の注意が必要であることを強調している。
私たちのコードはhttps://github.com/sbackmann/moralsim.comから入手可能です。
関連論文リスト
- FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas [23.26678104324838]
FairMindSimを導入し、不公平なシナリオを通じて道徳的ジレンマをシミュレートした。
我々はLLMエージェントを用いて人間の行動をシミュレートし,様々な段階のアライメントを確保した。
以上の結果から,GPT-4oは社会的正義の感覚が強く,人間はより豊かな感情を呈することが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T11:39:05Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement
Learning [4.2050490361120465]
ボトムアップ学習アプローチは、AIエージェントの倫理的行動の研究と開発にもっと適しているかもしれない。
本稿では,道徳理論に基づく報酬を内在的に動機づけたRLエージェントによる選択の体系的分析を行う。
我々は、異なる種類の道徳が協力、欠陥、搾取の出現に与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-20T09:36:42Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。