論文の概要: Probing Ethical Framework Representations in Large Language Models: Structure, Entanglement, and Methodological Challenges
- arxiv url: http://arxiv.org/abs/2603.23659v1
- Date: Tue, 24 Mar 2026 19:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:10.99875
- Title: Probing Ethical Framework Representations in Large Language Models: Structure, Entanglement, and Methodological Challenges
- Title(参考訳): 大規模言語モデルにおける倫理的枠組みの表現:構造,絡み合い,方法論的課題
- Authors: Weilun Xu, Alexander Rusnak, Frederic Kaplan,
- Abstract要約: 我々は,4B-72Bパラメータにまたがる6つのLLMにおいて,5つの倫理的枠組み(デオントロジー,実用主義,徳,正義,常識)にまたがる隠された表現を探索する。
我々の分析では、非対称な伝達パターンを持つ区別された倫理的部分空間が明らかにされている。例えば、デオントロジーは、部分的に美徳のシナリオに当てはまるが、コモンセンスプローブは、公正に破滅的に失敗する。
- 参考スコア(独自算出の注目度): 43.1650681858003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When large language models make ethical judgments, do their internal representations distinguish between normative frameworks, or collapse ethics into a single acceptability dimension? We probe hidden representations across five ethical frameworks (deontology, utilitarianism, virtue, justice, commonsense) in six LLMs spanning 4B--72B parameters. Our analysis reveals differentiated ethical subspaces with asymmetric transfer patterns -- e.g., deontology probes partially generalize to virtue scenarios while commonsense probes fail catastrophically on justice. Disagreement between deontological and utilitarian probes correlates with higher behavioral entropy across architectures, though this relationship may partly reflect shared sensitivity to scenario difficulty. Post-hoc validation reveals that probes partially depend on surface features of benchmark templates, motivating cautious interpretation. We discuss both the structural insights these methods provide and their epistemological limitations.
- Abstract(参考訳): 大きな言語モデルが倫理的判断を下すとき、それらの内部表現は規範的なフレームワークを区別するか、倫理を単一の受容可能性次元に分解するか?
我々は、4B--72Bパラメータにまたがる6つのLLMにおける5つの倫理的枠組み(デオントロジー、実用主義、美徳、正義、常識)に隠れた表現を探索する。この分析により、非対称な伝達パターンを持つ区別された倫理的部分空間が明らかにされる。例えば、デオントロジーのプローブは、部分的に美徳のシナリオに一般化し、コモンセンスのプローブは、正義で破滅的に失敗する。
非オントロジ的プローブと実用的プローブの相違は、アーキテクチャ間の高い行動エントロピーと相関するが、この関係はシナリオの難易度に対する共有感度を部分的に反映している可能性がある。
ポストホック検証により、プローブはベンチマークテンプレートの表面的特徴に部分的に依存し、慎重な解釈を動機付けていることが明らかになった。
これらの手法がもたらす構造的洞察と認識論的限界について論じる。
関連論文リスト
- Schoenfeld's Anatomy of Mathematical Reasoning by Language Models [56.656180566692946]
我々は、Schoenfeldのエピソード理論を誘導型中間スケールレンズとして採用し、ThinkARM(モデルにおける推論の解剖学)を紹介する。
ThinkARMは、推論トレースを分析、探索、実装、検証などの機能的推論ステップに明示的に抽象化する。
エピソードレベルの表現は推論ステップを明確にし、現代の言語モデルにおける推論がどのように構造化され、安定化され、変更されるかの体系的な分析を可能にする。
論文 参考訳(メタデータ) (2025-12-23T02:44:25Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - Stress-Testing Model Specs Reveals Character Differences among Language Models [23.505192393830807]
大規模言語モデル(LLM)は、AI構成とモデル仕様からますます訓練されている。
本稿では,ストレステストモデルキャラクタ仕様の体系的手法を提案する。
我々は、現在のモデル仕様における矛盾と解釈の曖昧さの多くの事例を同定する。
論文 参考訳(メタデータ) (2025-10-09T02:24:37Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - Analyzing the Ethical Logic of Six Large Language Models [1.119697400073873]
本研究では,OpenAI GPT-4o, Meta LLaMA 3.1, Perplexity, Anthropic Claude 3.5 Sonnet, Google Gemini, Mistral 7Bの6つの著名な生成言語モデルの倫理的理由について検討した。
発見によると、LLMは、合理主義的、連帯主義的な強調が特徴で、しばしば害と公正を優先する決定を伴う、ほぼ収束した倫理論理を示す。
論文 参考訳(メタデータ) (2025-01-15T16:56:26Z) - The Moral Mind(s) of Large Language Models [0.0]
大規模言語モデル (LLM) は、その決定を導く道徳的嗜好の一貫性のある構造を示す。
確率論的合理性テストを用いて、各主要プロバイダの少なくとも1つのモデルが、ほぼ安定した道徳的嗜好と整合した振る舞いを示した。
そして、これらのユーティリティ関数を推定し、ほとんどのモデルが中立的な道徳的スタンスの周りに集まっていることを発見した。
論文 参考訳(メタデータ) (2024-11-19T15:40:16Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。