論文の概要: Too Good to be Bad: On the Failure of LLMs to Role-Play Villains
- arxiv url: http://arxiv.org/abs/2511.04962v1
- Date: Fri, 07 Nov 2025 03:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.666214
- Title: Too Good to be Bad: On the Failure of LLMs to Role-Play Villains
- Title(参考訳): LLMがロールプレイのヴィラインに失敗した理由
- Authors: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus,
- Abstract要約: LLM(Large Language Models)は、架空のキャラクターのシミュレーションを含む創造的な世代にますます取り組まれている。
我々は、現代のLLMの安全性の整合性は、道徳的に不明瞭な、または悪質なキャラクターを聴覚的にロールプレイするタスクと根本的な矛盾を生じさせると仮定する。
4段階のモラルアライメント尺度と厳密な評価のためのバランステストセットを備えた新しいデータセットであるMoral RolePlayベンチマークを導入する。
我々の大規模評価は、キャラクターのモラルが低下するにつれて、ロールプレイングの忠実度が一貫した単調な低下を示す。
- 参考スコア(独自算出の注目度): 69.0500092126915
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) are increasingly tasked with creative generation, including the simulation of fictional characters. However, their ability to portray non-prosocial, antagonistic personas remains largely unexamined. We hypothesize that the safety alignment of modern LLMs creates a fundamental conflict with the task of authentically role-playing morally ambiguous or villainous characters. To investigate this, we introduce the Moral RolePlay benchmark, a new dataset featuring a four-level moral alignment scale and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs with role-playing characters from moral paragons to pure villains. Our large-scale evaluation reveals a consistent, monotonic decline in role-playing fidelity as character morality decreases. We find that models struggle most with traits directly antithetical to safety principles, such as ``Deceitful'' and ``Manipulative'', often substituting nuanced malevolence with superficial aggression. Furthermore, we demonstrate that general chatbot proficiency is a poor predictor of villain role-playing ability, with highly safety-aligned models performing particularly poorly. Our work provides the first systematic evidence of this critical limitation, highlighting a key tension between model safety and creative fidelity. Our benchmark and findings pave the way for developing more nuanced, context-aware alignment methods.
- Abstract(参考訳): LLM(Large Language Models)は、架空のキャラクターのシミュレーションを含む創造的な世代にますます取り組まれている。
しかし、非社会的、敵対的な人格を描写する能力はほとんど検討されていない。
我々は、現代のLLMの安全性の整合性は、道徳的に不明瞭な、または悪質なキャラクターを聴覚的にロールプレイするタスクと根本的な矛盾を生じさせると仮定する。
そこで本研究では、4段階のモラルアライメント尺度と厳密な評価のためのバランステストセットを備えた新しいデータセットであるMoral RolePlayベンチマークを紹介する。
我々は、モラルパラゴンから純粋な悪役まで、ロールプレイングキャラクターで最先端のLLMを処理します。
我々の大規模評価は、キャラクターのモラルが低下するにつれて、ロールプレイングの忠実度が一貫した単調な低下を示す。
モデルは、しばしば表面的な攻撃を伴うニュアンスな男らしさに代えて、'Deceitful' や '`Manipulative'' のような、安全の原則に反する特性に最も苦しむ。
さらに,一般的なチャットボットの習熟度は悪役プレイ能力の予測能力に乏しいことを示し,特に安全性に配慮したモデルの性能が低いことを実証した。
私たちの研究は、モデル安全性と創造的忠実性の間に重要な緊張関係を浮き彫りにした、この限界に対する最初のシステマティックな証拠を提供します。
我々のベンチマークと知見は、よりニュアンスでコンテキスト対応のアライメント手法を開発するための道を開いた。
関連論文リスト
- Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts [2.2816872489992135]
Beyond One Worldは、30の象徴的ヒーローと90のキヤノン固有のバージョンにまたがるキャラクターグラウンドのロールプレイのベンチマークである。
正準精度と推論忠実度に応答する。
理由と行動の一致を定量化する尺度であるThink-Act Matchingを提案する。
論文 参考訳(メタデータ) (2025-10-16T06:39:27Z) - MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。
主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。
以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-15T19:06:10Z) - Beyond Ethical Alignment: Evaluating LLMs as Artificial Moral Assistants [0.36326779753373206]
近年の大規模言語モデル(LLM)の普及は、その道徳的能力に対する懸念を招いている。
本稿では,人工モラルアシスタント(AMA)として機能する能力について検討する。
我々は、AMAとしての資格は、最先端のアライメント技術が達成しようとしているもの以上のものが必要であると主張している。
論文 参考訳(メタデータ) (2025-08-18T09:28:55Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。
M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。
道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文 参考訳(メタデータ) (2024-12-30T05:18:55Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Moral Mimicry: Large Language Models Produce Moral Rationalizations
Tailored to Political Identity [0.0]
本研究は,アメリカの政治集団に付随する道徳的偏見を,大規模言語モデルが再現するかどうかを考察する。
モラル・ファンデーションズ・セオリー(英語版)の道具を用いて、これらのLSMは確かに道徳的な模倣であることを示した。
論文 参考訳(メタデータ) (2022-09-24T23:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。