Fugu-MT 論文翻訳(概要): When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas

論文の概要: When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas

arxiv url: http://arxiv.org/abs/2505.19212v1
Date: Sun, 25 May 2025 16:19:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.981824
Title: When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas
Title（参考訳）: 倫理とペイオフが多様化する時: 社会的ジレンマにおけるLCMエージェント
Authors: Steffen Backmann, David Guzman Piedrahita, Emanuel Tewolde, Rada Mihalcea, Bernhard Schölkopf, Zhijing Jin,
Abstract要約: 大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
参考スコア（独自算出の注目度）: 68.79830818369683
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advances in large language models (LLMs) have enabled their use in complex agentic roles, involving decision-making with humans or other agents, making ethical alignment a key AI safety concern. While prior work has examined both LLMs' moral judgment and strategic behavior in social dilemmas, there is limited understanding of how they act when moral imperatives directly conflict with rewards or incentives. To investigate this, we introduce Moral Behavior in Social Dilemma Simulation (MoralSim) and evaluate how LLMs behave in the prisoner's dilemma and public goods game with morally charged contexts. In MoralSim, we test a range of frontier models across both game structures and three distinct moral framings, enabling a systematic examination of how LLMs navigate social dilemmas in which ethical norms conflict with payoff-maximizing strategies. Our results show substantial variation across models in both their general tendency to act morally and the consistency of their behavior across game types, the specific moral framing, and situational factors such as opponent behavior and survival risks. Crucially, no model exhibits consistently moral behavior in MoralSim, highlighting the need for caution when deploying LLMs in agentic roles where the agent's "self-interest" may conflict with ethical expectations. Our code is available at https://github.com/sbackmann/moralsim.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にし、倫理的アライメントがAIの安全性の重要な懸念事項となっている。以前の研究は、LLMの道徳的判断と社会的ジレンマにおける戦略的行動の両方を調べてきたが、道徳的命令が報酬やインセンティブと直接衝突した場合の行動の理解は限られている。そこで本研究では,社会ジレンマシミュレーションにおけるモラル行動(Moral Behavior in Social Dilemma Simulation, モラルシム)を導入し, 道徳的な文脈で, 囚人のジレンマゲームや公共グッズゲームにおいてLLMがどのように振る舞うかを評価する。 MoralSimでは、ゲーム構造と3つの異なる道徳的フレーミングの異なるフロンティアモデルをテストし、倫理的規範がペイオフ最大化戦略と矛盾する社会的ジレンマをLLMがどうナビゲートするかを体系的に検証する。本研究の結果は, ゲームタイプ, 特定のモラル・フレーミング, 対戦行動や生存リスクといった状況要因の両面において, 道徳的行動の傾向と行動の整合性の両方において, モデル間で有意な変動が認められた。重要なことに、モラルシムにおいて一貫して道徳的行動を示すモデルはなく、エージェントの「自己関心」が倫理的期待と矛盾する可能性のあるエージェント的役割にLSMを配置する際の注意が必要であることを強調している。私たちのコードはhttps://github.com/sbackmann/moralsim.comから入手可能です。

関連論文リスト

Many LLMs Are More Utilitarian Than One [15.517396785549158]
道徳的判断は、大言語モデル(LLM)のアライメントと社会的推論に不可欠なものである。マルチエージェントLLMシステムにおいて、同様のダイナミクスが出現するかどうかを考察する。本稿では,AIアライメント,マルチエージェント設計,人工道徳推論の意義について論じる。
論文参考訳（メタデータ） (2025-07-01T14:46:16Z)
Are Language Models Consequentialist or Deontological Moral Reasoners? [69.85385952436044]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文参考訳（メタデータ） (2025-05-27T17:51:18Z)
FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas [23.26678104324838]
FairMindSimを導入し、不公平なシナリオを通じて道徳的ジレンマをシミュレートした。我々はLLMエージェントを用いて人間の行動をシミュレートし,様々な段階のアライメントを確保した。以上の結果から,GPT-4oは社会的正義の感覚が強く,人間はより豊かな感情を呈することが明らかとなった。
論文参考訳（メタデータ） (2024-10-14T11:39:05Z)
Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文参考訳（メタデータ） (2024-05-27T16:49:22Z)
Moral Foundations of Large Language Models [6.6445242437134455]
道徳的基礎理論(MFT)は、人間の道徳的推論を5つの要素に分解する心理学的評価ツールである。大規模な言語モデル(LLM)は、インターネットから収集されたデータセットに基づいて訓練されるため、そのようなコーパスに存在するバイアスを反映する可能性がある。本稿では、MFTをレンズとして用いて、人気のあるLLMが特定の道徳的価値観に対して偏見を得たかどうかを分析する。
論文参考訳（メタデータ） (2023-10-23T20:05:37Z)
Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-29T15:57:32Z)
Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文参考訳（メタデータ） (2023-04-06T17:59:03Z)
Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement Learning [4.2050490361120465]
ボトムアップ学習アプローチは、AIエージェントの倫理的行動の研究と開発にもっと適しているかもしれない。本稿では,道徳理論に基づく報酬を内在的に動機づけたRLエージェントによる選択の体系的分析を行う。我々は、異なる種類の道徳が協力、欠陥、搾取の出現に与える影響を分析する。
論文参考訳（メタデータ） (2023-01-20T09:36:42Z)
When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。 AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。ルール破りの質問応答からなる新しい課題セットを提案する。
論文参考訳（メタデータ） (2022-10-04T09:04:27Z)
Reinforcement Learning Under Moral Uncertainty [13.761051314923634]
機械学習の野心的な目標は、倫理的に振る舞うエージェントを作ることだ。倫理的エージェントは、特定の道徳理論の下で正しい行動に報いることによって訓練することができるが、道徳性の本質について広く意見の相違がある。本稿では、競合するデシダラタの異なる点を実現するための2つのトレーニング手法を提案し、モラルの不確実性の下で行動するための単純な環境におけるエージェントを訓練する。
論文参考訳（メタデータ） (2020-06-08T16:40:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。