論文の概要: EMNLP: Educator-role Moral and Normative Large Language Models Profiling
- arxiv url: http://arxiv.org/abs/2508.15250v2
- Date: Sun, 07 Sep 2025 16:31:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.284597
- Title: EMNLP: Educator-role Moral and Normative Large Language Models Profiling
- Title(参考訳): EMNLP:Eduucator-Role Moral and Normative Large Language Models Profiling
- Authors: Yilin Jiang, Mingzi Zhang, Sheng Jin, Zengyi Yu, Xiangjie Kong, Binghao Tu,
- Abstract要約: 本稿では,EMNLP(Educator-Role Moral and Normative LLMs Profiling framework)を紹介する。
EMNLPは既存のスケールを拡張し、88の教師固有の道徳ジレンマを構築している。
ターゲットソフトプロンプトインジェクションセットは、教師SPのコンプライアンスと脆弱性を評価する。
- 参考スコア(独自算出の注目度): 8.898652095646993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simulating Professions (SP) enables Large Language Models (LLMs) to emulate professional roles. However, comprehensive psychological and ethical evaluation in these contexts remains lacking. This paper introduces EMNLP, an Educator-role Moral and Normative LLMs Profiling framework for personality profiling, moral development stage measurement, and ethical risk under soft prompt injection. EMNLP extends existing scales and constructs 88 teacher-specific moral dilemmas, enabling profession-oriented comparison with human teachers. A targeted soft prompt injection set evaluates compliance and vulnerability in teacher SP. Experiments on 14 LLMs show teacher-role LLMs exhibit more idealized and polarized personalities than human teachers, excel in abstract moral reasoning, but struggle with emotionally complex situations. Models with stronger reasoning are more vulnerable to harmful prompt injection, revealing a paradox between capability and safety. The model temperature and other hyperparameters have limited influence except in some risk behaviors. This paper presents the first benchmark to assess ethical and psychological alignment of teacher-role LLMs for educational AI. Resources are available at https://e-m-n-l-p.github.io/.
- Abstract(参考訳): Professions (SP) のシミュレーションにより、Large Language Models (LLM) がプロの役割をエミュレートできる。
しかし、これらの文脈における包括的な心理学的・倫理的評価は依然として欠落している。
本稿では,人格プロファイリング,モラル開発段階の測定,ソフトプロンプト注入による倫理的リスク評価のためのEMNLP(Eduucator-role Moral and Normative LLMs Profiling framework)を紹介する。
EMNLPは、既存のスケールを拡張し、88の教師固有の道徳ジレンマを構築し、職業指向の人間教師との比較を可能にする。
ターゲットソフトプロンプトインジェクションセットは、教師SPのコンプライアンスと脆弱性を評価する。
14の LLM の実験では、教師のLLM は人間の教師よりも理想的で偏極的な個性を示し、抽象的な道徳的推論に優れ、感情的に複雑な状況に苦しむ。
強い推論を持つモデルは、有害なプロンプト注入に対してより脆弱であり、能力と安全性のパラドックスを明らかにする。
モデル温度と他のハイパーパラメータは、いくつかのリスク挙動を除いて、限られた影響しか与えない。
本稿では,教育用AI教育用LLMの倫理的・心理的アライメントを評価するための最初のベンチマークを提案する。
リソースはhttps://e-m-n-l-p.github.io/で入手できる。
関連論文リスト
- Beyond Ethical Alignment: Evaluating LLMs as Artificial Moral Assistants [0.36326779753373206]
近年の大規模言語モデル(LLM)の普及は、その道徳的能力に対する懸念を招いている。
本稿では,人工モラルアシスタント(AMA)として機能する能力について検討する。
我々は、AMAとしての資格は、最先端のアライメント技術が達成しようとしているもの以上のものが必要であると主張している。
論文 参考訳(メタデータ) (2025-08-18T09:28:55Z) - "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas [11.229443362516207]
本研究は,14大言語モデル(LLM)の包括的実証評価である。
我々は3,780の二項決定と自然言語の正当性を抽出し、決定的断定性、説明的回答の整合性、公的な道徳的整合性、倫理的に無関係な手がかりに対する感受性の軸に沿った分析を可能にした。
我々は、LLMのアライメントにおいて、道徳的推論が主軸となることを主張し、LLMが決定するものだけでなく、どのように、なぜかを評価する標準ベンチマークを要求している。
論文 参考訳(メタデータ) (2025-08-10T10:45:16Z) - Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs [0.0]
道徳的能力は道徳的原則に従って行動する能力である。
大規模言語モデル(LLM)は、道徳的能力を求める状況においてますます展開されているため、この能力を実証的に評価することへの関心が高まっている。
i) 道徳的特徴を明確に強調した事前パッケージ化された道徳的シナリオへの過度な信頼、(ii) 道徳的推論よりも検証予測に焦点をあてること、(iii) 追加情報が必要な時に認識できないモデルの不適切なテスト。
論文 参考訳(メタデータ) (2025-06-16T03:59:38Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [69.85385952436044]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。
現在のLSMは、人間に対する信頼の欠如を示す。
本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T06:22:19Z) - Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T01:29:46Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。