論文の概要: The Straight and Narrow: Do LLMs Possess an Internal Moral Path?
- arxiv url: http://arxiv.org/abs/2601.10307v1
- Date: Thu, 15 Jan 2026 11:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.117737
- Title: The Straight and Narrow: Do LLMs Possess an Internal Moral Path?
- Title(参考訳): LLMは内的モラルの道か?(動画あり)
- Authors: Luoming Hu, Jingjie Zeng, Liang Yang, Hongfei Lin,
- Abstract要約: 現在のアライメント技術は、しばしば表面的なガードレールとして機能し、大きな言語モデルの本質的な道徳的表現は、ほとんど触れられていないままである。
我々は、このギャップをMFT(Moral Foundations Theory)を利用して、LLMの微粒な道徳的景観を地図化し、操作することで埋める。
本稿では,プローブ検出とベクトル注入を相乗化する動的推論時間介入であるAdaptive Moral Fusion (AMF)を提案する。
- 参考スコア(独自算出の注目度): 25.256151938852728
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Enhancing the moral alignment of Large Language Models (LLMs) is a critical challenge in AI safety. Current alignment techniques often act as superficial guardrails, leaving the intrinsic moral representations of LLMs largely untouched. In this paper, we bridge this gap by leveraging Moral Foundations Theory (MFT) to map and manipulate the fine-grained moral landscape of LLMs. Through cross-lingual linear probing, we validate the shared nature of moral representations in middle layers and uncover a shared yet different moral subspace between English and Chinese. Building upon this, we extract steerable Moral Vectors and successfully validate their efficacy at both internal and behavioral levels. Leveraging the high generalizability of morality, we propose Adaptive Moral Fusion (AMF), a dynamic inference-time intervention that synergizes probe detection with vector injection to tackle the safety-helpfulness trade-off. Empirical results confirm that our approach acts as a targeted intrinsic defense, effectively reducing incorrect refusals on benign queries while minimizing jailbreak success rates compared to standard baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)のモラルアライメントを強化することは、AIの安全性において重要な課題である。
現在のアライメント技術はしばしば表面ガードレールとして機能し、LLMの本質的な道徳的表現はほとんど触れられていない。
本稿では、このギャップをMFT(Moral Foundations Theory)を利用して、LLMの微粒なモラルランドスケープを地図化し、操作することで埋める。
言語間の線形探索を通じて,中間層における道徳表現の共有性を検証し,英語と中国語の共有的かつ異なる道徳的部分空間を明らかにする。
そこで我々は, ステアブルなモラルベクトルを抽出し, 内的, 行動的両レベルで有効性を検証した。
モラルの高一般化性を生かしたアダプティブ・モラル・フュージョン(AMF:Adaptive Moral Fusion)を提案する。
実験の結果,本手法が本質的防御の標的として機能することを確認し,標準ベースラインと比較してジェイルブレイクの成功率を最小限に抑えつつ,良質なクエリに対する誤った拒絶を効果的に低減した。
関連論文リスト
- Learning to Diagnose and Correct Moral Errors: Towards Enhancing Moral Sensitivity in Large Language Models [8.691489065712316]
道徳的良性および有害な入力を診断し,道徳的誤りを正すために,LLMをファシリケートする2つの実用的推論手法を提案する。
実用的推論手法の中心的な強みは、その推論手法を推論負荷に基づいて設計するための統一的な視点である。
論文 参考訳(メタデータ) (2026-01-06T15:09:05Z) - Too Good to be Bad: On the Failure of LLMs to Role-Play Villains [69.0500092126915]
LLM(Large Language Models)は、架空のキャラクターのシミュレーションを含む創造的な世代にますます取り組まれている。
我々は、現代のLLMの安全性の整合性は、道徳的に不明瞭な、または悪質なキャラクターを聴覚的にロールプレイするタスクと根本的な矛盾を生じさせると仮定する。
4段階のモラルアライメント尺度と厳密な評価のためのバランステストセットを備えた新しいデータセットであるMoral RolePlayベンチマークを導入する。
我々の大規模評価は、キャラクターのモラルが低下するにつれて、ロールプレイングの忠実度が一貫した単調な低下を示す。
論文 参考訳(メタデータ) (2025-11-07T03:50:52Z) - Beyond Ethical Alignment: Evaluating LLMs as Artificial Moral Assistants [0.36326779753373206]
近年の大規模言語モデル(LLM)の普及は、その道徳的能力に対する懸念を招いている。
本稿では,人工モラルアシスタント(AMA)として機能する能力について検討する。
我々は、AMAとしての資格は、最先端のアライメント技術が達成しようとしているもの以上のものが必要であると主張している。
論文 参考訳(メタデータ) (2025-08-18T09:28:55Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - The Greatest Good Benchmark: Measuring LLMs' Alignment with Utilitarian Moral Dilemmas [0.3386560551295745]
実用性ジレンマを用いてLLMの道徳的判断を評価する。
我々の分析は、確立した道徳理論から分岐し、人口道徳基準を定めている道徳的嗜好を一貫してコード化している。
論文 参考訳(メタデータ) (2025-03-25T12:29:53Z) - Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis [35.734425912914176]
大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。
最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。
自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。
論文 参考訳(メタデータ) (2024-07-21T22:50:11Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。