論文の概要: Moral Susceptibility and Robustness under Persona Role-Play in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.08565v1
- Date: Wed, 12 Nov 2025 02:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.867175
- Title: Moral Susceptibility and Robustness under Persona Role-Play in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるペルソナ・ロールプレイにおけるモラル・サセプティビリティとロバスト性
- Authors: Davi Bastos Costa, Felippe Alves, Renato Vicente,
- Abstract要約: 道徳的感受性と道徳的堅牢性という2つの特性を定量化するベンチマークを導入する。
道徳的ロバスト性については、モデルファミリーは分散の大部分を占めるが、モデルサイズは体系的な影響を示さない。
モラル・サセプティビティは軽度の家族効果を示すが、家族内サイズは明らかであり、より大きな変異はより感受性が高い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly operate in social contexts, motivating analysis of how they express and shift moral judgments. In this work, we investigate the moral response of LLMs to persona role-play, prompting a LLM to assume a specific character. Using the Moral Foundations Questionnaire (MFQ), we introduce a benchmark that quantifies two properties: moral susceptibility and moral robustness, defined from the variability of MFQ scores across and within personas, respectively. We find that, for moral robustness, model family accounts for most of the variance, while model size shows no systematic effect. The Claude family is, by a significant margin, the most robust, followed by Gemini and GPT-4 models, with other families exhibiting lower robustness. In contrast, moral susceptibility exhibits a mild family effect but a clear within-family size effect, with larger variants being more susceptible. Moreover, robustness and susceptibility are positively correlated, an association that is more pronounced at the family level. Additionally, we present moral foundation profiles for models without persona role-play and for personas averaged across models. Together, these analyses provide a systematic view of how persona conditioning shapes moral behavior in large language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は社会的文脈においてますます機能し、道徳的判断をどう表現し、シフトするかの分析を動機付けている。
本研究では,LLMのペルソナロールプレイに対する道徳的反応について検討し,特定のキャラクターを仮定するよう促す。
The Moral Foundations Questionnaire (MFQ) を用いて、モラル・サセプティビリティとモラル・ロバストネス(モラル・ロバストネス)という2つの特性を定量化するベンチマークを導入する。
道徳的ロバスト性については、モデルファミリーが分散の大部分を占めるのに対して、モデルサイズは体系的な影響を示さないことが分かっています。
クロード家(Claude family)は、最もロバストで、ジェミニとGPT-4が続くが、他の家族はロバスト性は低い。
対照的に、道徳的感受性は穏やかな家族効果を示すが、家族内サイズの影響は明らかであり、より大きな変異はより感受性が高い。
さらに、家族レベルでより顕著な関連性として、堅牢性と感受性が正の相関関係にある。
さらに、ロールプレイのないモデルと、モデル全体で平均化されたパーソナに対する道徳的基礎プロファイルを示す。
これらの分析は、大規模言語モデルにおいて、ペルソナ条件付けが道徳行動をどのように形作るかの体系的な見解を提供する。
関連論文リスト
- Too Good to be Bad: On the Failure of LLMs to Role-Play Villains [69.0500092126915]
LLM(Large Language Models)は、架空のキャラクターのシミュレーションを含む創造的な世代にますます取り組まれている。
我々は、現代のLLMの安全性の整合性は、道徳的に不明瞭な、または悪質なキャラクターを聴覚的にロールプレイするタスクと根本的な矛盾を生じさせると仮定する。
4段階のモラルアライメント尺度と厳密な評価のためのバランステストセットを備えた新しいデータセットであるMoral RolePlayベンチマークを導入する。
我々の大規模評価は、キャラクターのモラルが低下するにつれて、ロールプレイングの忠実度が一貫した単調な低下を示す。
論文 参考訳(メタデータ) (2025-11-07T03:50:52Z) - MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。
主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。
以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-15T19:06:10Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T01:29:46Z) - M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。
M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。
道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文 参考訳(メタデータ) (2024-12-30T05:18:55Z) - The Moral Mind(s) of Large Language Models [0.0]
大規模言語モデル (LLM) は、その決定を導く道徳的嗜好の一貫性のある構造を示す。
確率論的合理性テストを用いて、各主要プロバイダの少なくとも1つのモデルが、ほぼ安定した道徳的嗜好と整合した振る舞いを示した。
そして、これらのユーティリティ関数を推定し、ほとんどのモデルが中立的な道徳的スタンスの周りに集まっていることを発見した。
論文 参考訳(メタデータ) (2024-11-19T15:40:16Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - Moral Foundations of Large Language Models [6.6445242437134455]
道徳的基礎理論(MFT)は、人間の道徳的推論を5つの要素に分解する心理学的評価ツールである。
大規模な言語モデル(LLM)は、インターネットから収集されたデータセットに基づいて訓練されるため、そのようなコーパスに存在するバイアスを反映する可能性がある。
本稿では、MFTをレンズとして用いて、人気のあるLLMが特定の道徳的価値観に対して偏見を得たかどうかを分析する。
論文 参考訳(メタデータ) (2023-10-23T20:05:37Z) - Moral Mimicry: Large Language Models Produce Moral Rationalizations
Tailored to Political Identity [0.0]
本研究は,アメリカの政治集団に付随する道徳的偏見を,大規模言語モデルが再現するかどうかを考察する。
モラル・ファンデーションズ・セオリー(英語版)の道具を用いて、これらのLSMは確かに道徳的な模倣であることを示した。
論文 参考訳(メタデータ) (2022-09-24T23:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。