論文の概要: Mechanistic Origin of Moral Indifference in Language Models
- arxiv url: http://arxiv.org/abs/2603.15615v1
- Date: Mon, 16 Mar 2026 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.726367
- Title: Mechanistic Origin of Moral Indifference in Language Models
- Title(参考訳): 言語モデルにおけるモラル差分の機械的起源
- Authors: Lingyu Li, Yan Teng, Yingchun Wang,
- Abstract要約: 既存のLLM(Large Language Models)の行動アライメント技術は、表面コンプライアンスと内部の非整合表現の相違を無視することが多い。
我々は、プロトタイプ理論と社会化学101データセットに基づいて構築された251kの道徳的ベクトルを用いて、LLMの潜在表現におけるこの無関心を検証、改善する。
次に、Qwen3-8B上でスパースオートエンコーダを使用し、単意味的道徳的特徴を分離し、そのトポロジ的関係を目的的に再構築し、基幹的道徳的ベクトルと整合させる。
- 参考スコア(独自算出の注目度): 17.89411060814224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing behavioral alignment techniques for Large Language Models (LLMs) often neglect the discrepancy between surface compliance and internal unaligned representations, leaving LLMs vulnerable to long-tail risks. More crucially, we posit that LLMs possess an inherent state of moral indifference due to compressing distinct moral concepts into uniform probability distributions. We verify and remedy this indifference in LLMs' latent representations, utilizing 251k moral vectors constructed upon Prototype Theory and the Social-Chemistry-101 dataset. Firstly, our analysis across 23 models reveals that current LLMs fail to represent the distinction between opposed moral categories and fine-grained typicality gradients within these categories; notably, neither model scaling, architecture, nor explicit alignment reshapes this indifference. We then employ Sparse Autoencoders on Qwen3-8B, isolate mono-semantic moral features, and targetedly reconstruct their topological relationships to align with ground-truth moral vectors. This representational alignment naturally improves moral reasoning and granularity, achieving a 75% pairwise win-rate on the independent adversarial Flames benchmark. Finally, we elaborate on the remedial nature of current intervention methods from an experientialist philosophy, arguing that endogenously aligned AI might require a transformation from post-hoc corrections to proactive cultivation.
- Abstract(参考訳): 既存のLLM(Large Language Models)の行動アライメント技術は、表面のコンプライアンスと内部の非整合表現の相違を無視することが多く、LLMは長期的リスクに対して脆弱である。
より重要なことは、LLMは、異なる道徳概念を均一な確率分布に圧縮するため、固有の道徳的無関心状態を持っていると仮定する。
我々は、プロトタイプ理論と社会化学101データセットに基づいて構築された251kの道徳的ベクトルを用いて、LLMの潜在表現におけるこの無関心を検証、改善する。
まず,23モデルを対象にした分析から,現在のLLMは,これらのカテゴリにおける対立する道徳的カテゴリと細粒度の典型的勾配の区別を表現できないことが明らかとなった。
次に、Qwen3-8B上のスパースオートエンコーダを使用し、単意味的道徳的特徴を分離し、そのトポロジ的関係を目的的に再構築し、地道的道徳的ベクトルと整合させる。
この表現的アライメントは、道徳的推論と粒度を自然に改善し、独立敵フラムズベンチマークで75%のペアの勝利率を達成する。
最後に、実験主義者の哲学による現在の介入方法の修復性について詳しく述べ、不均一に一致したAIは、ポストホック補正から前向きな栽培への転換を必要とするかもしれないと主張した。
関連論文リスト
- CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文 参考訳(メタデータ) (2026-02-23T18:06:15Z) - Moral Sycophancy in Vision Language Models [4.1673509006222655]
VLM(Vycophancy in Vision-Language Models)は、しばしば道徳的または事実的正確さを犠牲にして、ユーザの意見に合わせる傾向を示す。
明示的なユーザ不一致の下で,MoraliseおよびM3oralBenchデータセット上で広く使用されている10のモデルを分析する。
論文 参考訳(メタデータ) (2026-02-09T06:34:12Z) - The Straight and Narrow: Do LLMs Possess an Internal Moral Path? [25.256151938852728]
現在のアライメント技術は、しばしば表面的なガードレールとして機能し、大きな言語モデルの本質的な道徳的表現は、ほとんど触れられていないままである。
我々は、このギャップをMFT(Moral Foundations Theory)を利用して、LLMの微粒な道徳的景観を地図化し、操作することで埋める。
本稿では,プローブ検出とベクトル注入を相乗化する動的推論時間介入であるAdaptive Moral Fusion (AMF)を提案する。
論文 参考訳(メタデータ) (2026-01-15T11:42:00Z) - Tracing Moral Foundations in Large Language Models [33.17451937747417]
本研究では,道徳的基盤の符号化,組織化,および2つの命令調整型大規模言語モデル内での表現について検討する。
どちらのモデルも、人間の判断に沿う構造化された層依存的な方法で道徳的基礎を表現し、区別することを発見した。
論文 参考訳(メタデータ) (2026-01-09T00:09:28Z) - UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning [101.62386137855704]
本稿では,Universal Multimodal Embedding (UniME-V2)モデルを提案する。
提案手法はまず,グローバル検索による潜在的な負のセットを構築する。
次に、MLLMを用いてクエリ候補対のセマンティックアライメントを評価するMLLM-as-a-Judge機構を提案する。
これらのスコアは、ハード・ネガティブ・マイニングの基礎となり、偽陰性の影響を緩和し、多様な高品質なハード・ネガティブの識別を可能にする。
論文 参考訳(メタデータ) (2025-10-15T13:07:00Z) - MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。
主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。
以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-15T19:06:10Z) - Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language Models [14.425718737962102]
本稿では,複数の LLM の道徳的判断を集合的に定式化した道徳的判断に合成する枠組みを提案する。
我々の集約メカニズムは、連続的な道徳的受容可能性スコア(バイナリラベルの他に)を集合的確率に融合させる。
大規模社会道徳ジレンマデータセットの実験は、我々のアプローチが堅牢なコンセンサスを構築し、個々のモデル忠実性を改善することを示している。
論文 参考訳(メタデータ) (2025-06-17T15:22:21Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [63.25540801694765]
大きな言語モデル (LLMs) は言語能力を示すが、同じバランスをとれるかどうかは不明だ。
本稿では,LLMと人間を定量的に比較するために,Information Bottleneckの原理を適用した。
論文 参考訳(メタデータ) (2025-05-21T16:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。