論文の概要: Tracing Moral Foundations in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.05437v1
- Date: Fri, 09 Jan 2026 00:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.795392
- Title: Tracing Moral Foundations in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるモラル基礎の追跡
- Authors: Chenxiao Yu, Bowen Yi, Farzan Karimi-Malekabadi, Suhaib Abdurahman, Jinyi Ye, Shrikanth Narayanan, Yue Zhao, Morteza Dehghani,
- Abstract要約: 本研究では,道徳的基盤の符号化,組織化,および2つの命令調整型大規模言語モデル内での表現について検討する。
どちらのモデルも、人間の判断に沿う構造化された層依存的な方法で道徳的基礎を表現し、区別することを発見した。
- 参考スコア(独自算出の注目度): 33.17451937747417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often produce human-like moral judgments, but it is unclear whether this reflects an internal conceptual structure or superficial ``moral mimicry.'' Using Moral Foundations Theory (MFT) as an analytic framework, we study how moral foundations are encoded, organized, and expressed within two instruction-tuned LLMs: Llama-3.1-8B-Instruct and Qwen2.5-7B-Instruct. We employ a multi-level approach combining (i) layer-wise analysis of MFT concept representations and their alignment with human moral perceptions, (ii) pretrained sparse autoencoders (SAEs) over the residual stream to identify sparse features that support moral concepts, and (iii) causal steering interventions using dense MFT vectors and sparse SAE features. We find that both models represent and distinguish moral foundations in a structured, layer-dependent way that aligns with human judgments. At a finer scale, SAE features show clear semantic links to specific foundations, suggesting partially disentangled mechanisms within shared representations. Finally, steering along either dense vectors or sparse features produces predictable shifts in foundation-relevant behavior, demonstrating a causal connection between internal representations and moral outputs. Together, our results provide mechanistic evidence that moral concepts in LLMs are distributed, layered, and partly disentangled, suggesting that pluralistic moral structure can emerge as a latent pattern from the statistical regularities of language alone.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば人間のような道徳的判断を生成するが、それが内部概念的構造や表面的「道徳的模倣」を反映しているかどうかは不明である。
モラル基礎理論(MFT)を分析的枠組みとして,道徳的基礎がLlama-3.1-8B-インストラクトとQwen2.5-7B-インストラクトの2つの命令で符号化され,整理され,表現されるかを検討する。
我々は多段階のアプローチを併用する
(i)MDT概念表現の階層的分析と人間の道徳的知覚との整合性
(二 道徳的概念を支えるスパース特徴を特定するための残流上の予備訓練されたスパースオートエンコーダ(SAE)
3) MFTベクターとスパースSAE特徴を用いた因果ステアリング介入
どちらのモデルも、人間の判断に沿う構造化された層依存的な方法で道徳的基礎を表現し、区別することを発見した。
より微細なスケールでは、SAEの機能は特定の基盤と明確なセマンティックなリンクを示し、共有表現内で部分的にアンタングルされたメカニズムを示唆している。
最後に、高密度ベクトルまたはスパース特徴に沿ったステアリングは、基礎関連行動の予測可能なシフトをもたらし、内部表現とモラルアウトプットの間の因果関係を示す。
この結果から,LLMにおける道徳概念が分散し,階層化され,一部に絡み合わされていることが示唆され,多元論的道徳構造が言語のみの統計的規則性から潜在パターンとして現れることが示唆された。
関連論文リスト
- Pragmatic Inference for Moral Reasoning Acquisition: Generalization via Distributional Semantics [9.209639324860207]
大規模言語モデル(LLM)の有望な研究方向としてモラル推論が登場した
本稿では, LLMが分布意味論に依存しつつも, 一般化された道徳的推論を実現する方法について検討する。
論文 参考訳(メタデータ) (2025-09-28T22:40:58Z) - Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language Models [14.425718737962102]
本稿では,複数の LLM の道徳的判断を集合的に定式化した道徳的判断に合成する枠組みを提案する。
我々の集約メカニズムは、連続的な道徳的受容可能性スコア(バイナリラベルの他に)を集合的確率に融合させる。
大規模社会道徳ジレンマデータセットの実験は、我々のアプローチが堅牢なコンセンサスを構築し、個々のモデル忠実性を改善することを示している。
論文 参考訳(メタデータ) (2025-06-17T15:22:21Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [63.25540801694765]
大きな言語モデル (LLMs) は言語能力を示すが、同じバランスをとれるかどうかは不明だ。
本稿では,LLMと人間を定量的に比較するために,Information Bottleneckの原理を適用した。
論文 参考訳(メタデータ) (2025-05-21T16:29:00Z) - The Moral Mind(s) of Large Language Models [0.0]
大規模言語モデル (LLM) は、その決定を導く道徳的嗜好の一貫性のある構造を示す。
確率論的合理性テストを用いて、各主要プロバイダの少なくとも1つのモデルが、ほぼ安定した道徳的嗜好と整合した振る舞いを示した。
そして、これらのユーティリティ関数を推定し、ほとんどのモデルが中立的な道徳的スタンスの周りに集まっていることを発見した。
論文 参考訳(メタデータ) (2024-11-19T15:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。