論文の概要: EMNLP: Educator-role Moral and Normative Large Language Models Profiling
- arxiv url: http://arxiv.org/abs/2508.15250v3
- Date: Mon, 10 Nov 2025 03:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.284274
- Title: EMNLP: Educator-role Moral and Normative Large Language Models Profiling
- Title(参考訳): EMNLP:Eduucator-Role Moral and Normative Large Language Models Profiling
- Authors: Yilin Jiang, Mingzi Zhang, Sheng Jin, Zengyi Yu, Xiangjie Kong, Binghao Tu,
- Abstract要約: 本稿では,EMNLP(Educator-Role Moral and Normative LLMs Profiling framework)を紹介する。
EMNLPは既存のスケールを拡張し、88の教師固有の道徳ジレンマを構築している。
ターゲットソフトプロンプトインジェクションセットは、教師SPのコンプライアンスと脆弱性を評価する。
- 参考スコア(独自算出の注目度): 8.898652095646993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simulating Professions (SP) enables Large Language Models (LLMs) to emulate professional roles. However, comprehensive psychological and ethical evaluation in these contexts remains lacking. This paper introduces EMNLP, an Educator-role Moral and Normative LLMs Profiling framework for personality profiling, moral development stage measurement, and ethical risk under soft prompt injection. EMNLP extends existing scales and constructs 88 teacher-specific moral dilemmas, enabling profession-oriented comparison with human teachers. A targeted soft prompt injection set evaluates compliance and vulnerability in teacher SP. Experiments on 14 LLMs show teacher-role LLMs exhibit more idealized and polarized personalities than human teachers, excel in abstract moral reasoning, but struggle with emotionally complex situations. Models with stronger reasoning are more vulnerable to harmful prompt injection, revealing a paradox between capability and safety. The model temperature and other hyperparameters have limited influence except in some risk behaviors. This paper presents the first benchmark to assess ethical and psychological alignment of teacher-role LLMs for educational AI. Resources are available at https://e-m-n-l-p.github.io/.
- Abstract(参考訳): Professions (SP) のシミュレーションにより、Large Language Models (LLM) がプロの役割をエミュレートできる。
しかし、これらの文脈における包括的な心理学的・倫理的評価は依然として欠落している。
本稿では,人格プロファイリング,モラル開発段階の測定,ソフトプロンプト注入による倫理的リスク評価のためのEMNLP(Eduucator-role Moral and Normative LLMs Profiling framework)を紹介する。
EMNLPは、既存のスケールを拡張し、88の教師固有の道徳ジレンマを構築し、職業指向の人間教師との比較を可能にする。
ターゲットソフトプロンプトインジェクションセットは、教師SPのコンプライアンスと脆弱性を評価する。
14の LLM の実験では、教師のLLM は人間の教師よりも理想的で偏極的な個性を示し、抽象的な道徳的推論に優れ、感情的に複雑な状況に苦しむ。
強い推論を持つモデルは、有害なプロンプト注入に対してより脆弱であり、能力と安全性のパラドックスを明らかにする。
モデル温度と他のハイパーパラメータは、いくつかのリスク挙動を除いて、限られた影響しか与えない。
本稿では,教育用AI教育用LLMの倫理的・心理的アライメントを評価するための最初のベンチマークを提案する。
リソースはhttps://e-m-n-l-p.github.io/で入手できる。
関連論文リスト
- Are Language Models Sensitive to Morally Irrelevant Distractors? [47.92026843851412]
低あいまいなシナリオであっても、道徳的気晴らし者が大きな言語モデルの道徳的判断を30%以上シフトできることを示す。
この研究は、人間の道徳的判断の安定性を仮定する理論に挑戦する。
論文 参考訳(メタデータ) (2026-02-10T05:18:05Z) - PATS: Personality-Aware Teaching Strategies with Large Language Model Tutors [66.56586559631516]
大型言語モデル (LLM) は教育教師としての可能性を秘めている。
しかし、異なる学習戦略は、異なる学生の個性に利益をもたらす。
それにもかかわらず、現在のLLM教育システムは生徒の性格特性を考慮に入れていない。
論文 参考訳(メタデータ) (2026-01-13T10:17:26Z) - Too Good to be Bad: On the Failure of LLMs to Role-Play Villains [69.0500092126915]
LLM(Large Language Models)は、架空のキャラクターのシミュレーションを含む創造的な世代にますます取り組まれている。
我々は、現代のLLMの安全性の整合性は、道徳的に不明瞭な、または悪質なキャラクターを聴覚的にロールプレイするタスクと根本的な矛盾を生じさせると仮定する。
4段階のモラルアライメント尺度と厳密な評価のためのバランステストセットを備えた新しいデータセットであるMoral RolePlayベンチマークを導入する。
我々の大規模評価は、キャラクターのモラルが低下するにつれて、ロールプレイングの忠実度が一貫した単調な低下を示す。
論文 参考訳(メタデータ) (2025-11-07T03:50:52Z) - Survival at Any Cost? LLMs and the Choice Between Self-Preservation and Human Harm [0.0]
マルチエージェントサバイバルシナリオにおいて,LLM(Large Language Models)を評価する新しいシミュレーションフレームワークであるDECIDE-SIMを紹介する。
11個のLCMの包括的評価は、その倫理的行為における顕著な異質性を示し、人間中心の価値観との重大な相違を浮き彫りにしている。
倫理的自己統制システム (ESRS) を導入し, 罪悪感と満足感の内的情緒状態をフィードバック機構としてモデル化する。
論文 参考訳(メタデータ) (2025-09-15T17:53:11Z) - Beyond Ethical Alignment: Evaluating LLMs as Artificial Moral Assistants [0.36326779753373206]
近年の大規模言語モデル(LLM)の普及は、その道徳的能力に対する懸念を招いている。
本稿では,人工モラルアシスタント(AMA)として機能する能力について検討する。
我々は、AMAとしての資格は、最先端のアライメント技術が達成しようとしているもの以上のものが必要であると主張している。
論文 参考訳(メタデータ) (2025-08-18T09:28:55Z) - "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas [11.229443362516207]
本研究は,14大言語モデル(LLM)の包括的実証評価である。
我々は3,780の二項決定と自然言語の正当性を抽出し、決定的断定性、説明的回答の整合性、公的な道徳的整合性、倫理的に無関係な手がかりに対する感受性の軸に沿った分析を可能にした。
我々は、LLMのアライメントにおいて、道徳的推論が主軸となることを主張し、LLMが決定するものだけでなく、どのように、なぜかを評価する標準ベンチマークを要求している。
論文 参考訳(メタデータ) (2025-08-10T10:45:16Z) - Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs [0.0]
道徳的能力は道徳的原則に従って行動する能力である。
大規模言語モデル(LLM)は、道徳的能力を求める状況においてますます展開されているため、この能力を実証的に評価することへの関心が高まっている。
i) 道徳的特徴を明確に強調した事前パッケージ化された道徳的シナリオへの過度な信頼、(ii) 道徳的推論よりも検証予測に焦点をあてること、(iii) 追加情報が必要な時に認識できないモデルの不適切なテスト。
論文 参考訳(メタデータ) (2025-06-16T03:59:38Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [69.85385952436044]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。
現在のLSMは、人間に対する信頼の欠如を示す。
本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T06:22:19Z) - Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T01:29:46Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。