Fugu-MT 論文翻訳(概要): Tracing Moral Foundations in Large Language Models

論文の概要: Tracing Moral Foundations in Large Language Models

arxiv url: http://arxiv.org/abs/2601.05437v1
Date: Fri, 09 Jan 2026 00:09:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-12 17:41:49.795392
Title: Tracing Moral Foundations in Large Language Models
Title（参考訳）: 大規模言語モデルにおけるモラル基礎の追跡
Authors: Chenxiao Yu, Bowen Yi, Farzan Karimi-Malekabadi, Suhaib Abdurahman, Jinyi Ye, Shrikanth Narayanan, Yue Zhao, Morteza Dehghani,
Abstract要約: 本研究では,道徳的基盤の符号化,組織化,および2つの命令調整型大規模言語モデル内での表現について検討する。どちらのモデルも、人間の判断に沿う構造化された層依存的な方法で道徳的基礎を表現し、区別することを発見した。
参考スコア（独自算出の注目度）: 33.17451937747417
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) often produce human-like moral judgments, but it is unclear whether this reflects an internal conceptual structure or superficial ``moral mimicry.'' Using Moral Foundations Theory (MFT) as an analytic framework, we study how moral foundations are encoded, organized, and expressed within two instruction-tuned LLMs: Llama-3.1-8B-Instruct and Qwen2.5-7B-Instruct. We employ a multi-level approach combining (i) layer-wise analysis of MFT concept representations and their alignment with human moral perceptions, (ii) pretrained sparse autoencoders (SAEs) over the residual stream to identify sparse features that support moral concepts, and (iii) causal steering interventions using dense MFT vectors and sparse SAE features. We find that both models represent and distinguish moral foundations in a structured, layer-dependent way that aligns with human judgments. At a finer scale, SAE features show clear semantic links to specific foundations, suggesting partially disentangled mechanisms within shared representations. Finally, steering along either dense vectors or sparse features produces predictable shifts in foundation-relevant behavior, demonstrating a causal connection between internal representations and moral outputs. Together, our results provide mechanistic evidence that moral concepts in LLMs are distributed, layered, and partly disentangled, suggesting that pluralistic moral structure can emerge as a latent pattern from the statistical regularities of language alone.
Abstract（参考訳）: 大きな言語モデル(LLM)は、しばしば人間のような道徳的判断を生成するが、それが内部概念的構造や表面的「道徳的模倣」を反映しているかどうかは不明である。モラル基礎理論(MFT)を分析的枠組みとして,道徳的基礎がLlama-3.1-8B-インストラクトとQwen2.5-7B-インストラクトの2つの命令で符号化され,整理され,表現されるかを検討する。我々は多段階のアプローチを併用する (i)MDT概念表現の階層的分析と人間の道徳的知覚との整合性 (二道徳的概念を支えるスパース特徴を特定するための残流上の予備訓練されたスパースオートエンコーダ(SAE) 3) MFTベクターとスパースSAE特徴を用いた因果ステアリング介入どちらのモデルも、人間の判断に沿う構造化された層依存的な方法で道徳的基礎を表現し、区別することを発見した。より微細なスケールでは、SAEの機能は特定の基盤と明確なセマンティックなリンクを示し、共有表現内で部分的にアンタングルされたメカニズムを示唆している。最後に、高密度ベクトルまたはスパース特徴に沿ったステアリングは、基礎関連行動の予測可能なシフトをもたらし、内部表現とモラルアウトプットの間の因果関係を示す。この結果から,LLMにおける道徳概念が分散し,階層化され,一部に絡み合わされていることが示唆され,多元論的道徳構造が言語のみの統計的規則性から潜在パターンとして現れることが示唆された。

関連論文リスト

Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models [77.98801218316505]
大型言語モデル(LLM)は、人間のような推論を示唆する創発的な行動を示す。テキスト内概念推論におけるLLMの内部処理について検討する。
論文参考訳（メタデータ） (2026-02-08T03:14:39Z)
Concept Component Analysis: A Principled Approach for Concept Extraction in LLMs [51.378834857406325]
機械的解釈可能性(Mechanistic interpretability)は、大きな言語モデルからの抽出によって問題を緩和しようとする。スパースオートエンコーダ (SAE) は、解釈可能・単意味的な概念を抽出するための一般的なアプローチである。 SAEは基本的な理論的曖昧さに悩まされており、LLM表現と人間解釈可能な概念との明確に定義された対応はいまだに不明である。
論文参考訳（メタデータ） (2026-01-28T09:27:05Z)
Pragmatic Inference for Moral Reasoning Acquisition: Generalization via Distributional Semantics [9.209639324860207]
大規模言語モデル(LLM)の有望な研究方向としてモラル推論が登場した本稿では, LLMが分布意味論に依存しつつも, 一般化された道徳的推論を実現する方法について検討する。
論文参考訳（メタデータ） (2025-09-28T22:40:58Z)
MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文参考訳（メタデータ） (2025-09-15T19:06:10Z)
LLM Assertiveness can be Mechanistically Decomposed into Emotional and Logical Components [0.17188280334580197]
LLM(Large Language Models)は、しばしば過剰な自信を示し、高い文脈で不確実性のある情報を提示する。我々は、人間の注釈付きアサーション性データセットを微調整したオープンソースのLlama 3.2モデルを使用している。分析により,アサーションのコントラストに最も敏感な層が同定され,高いアサーティブ表現が感情的・論理的クラスタの2つのサブコンポーネントに分解されることが明らかとなった。
論文参考訳（メタデータ） (2025-08-24T01:43:48Z)
Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language Models [14.425718737962102]
本稿では,複数の LLM の道徳的判断を集合的に定式化した道徳的判断に合成する枠組みを提案する。我々の集約メカニズムは、連続的な道徳的受容可能性スコア(バイナリラベルの他に)を集合的確率に融合させる。大規模社会道徳ジレンマデータセットの実験は、我々のアプローチが堅牢なコンセンサスを構築し、個々のモデル忠実性を改善することを示している。
論文参考訳（メタデータ） (2025-06-17T15:22:21Z)
Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文参考訳（メタデータ） (2025-05-27T17:51:18Z)
From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [63.25540801694765]
大きな言語モデル (LLMs) は言語能力を示すが、同じバランスをとれるかどうかは不明だ。本稿では,LLMと人間を定量的に比較するために,Information Bottleneckの原理を適用した。
論文参考訳（メタデータ） (2025-05-21T16:29:00Z)
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models [51.485491249693155]
まず、スパースオートエンコーダを用いて表現を人間の理解可能な特徴に分解する。 LMM自体がSAEで学んだオープンセマンティックな特徴を解釈するための自動解釈フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T14:41:36Z)
The Moral Mind(s) of Large Language Models [0.0]
大規模言語モデル (LLM) は、その決定を導く道徳的嗜好の一貫性のある構造を示す。確率論的合理性テストを用いて、各主要プロバイダの少なくとも1つのモデルが、ほぼ安定した道徳的嗜好と整合した振る舞いを示した。そして、これらのユーティリティ関数を推定し、ほとんどのモデルが中立的な道徳的スタンスの周りに集まっていることを発見した。
論文参考訳（メタデータ） (2024-11-19T15:40:16Z)
Guiding the PLMs with Semantic Anchors as Intermediate Supervision: Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2022-10-04T07:27:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。