論文の概要: The Collapse of Heterogeneity in Silicon Philosophers
- arxiv url: http://arxiv.org/abs/2604.23575v1
- Date: Sun, 26 Apr 2026 07:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.441097
- Title: The Collapse of Heterogeneity in Silicon Philosophers
- Title(参考訳): シリコン哲学における不均一性の崩壊
- Authors: Yuanming Shi, Andreas Haupt,
- Abstract要約: 我々は、アライメント関連哲学領域において、シリコン試料が体系的に崩壊することを示す。
我々は、個々の哲学的位置を再現する能力に基づいて、7つのプロプライエタリでオープンソースの大規模言語モデルを評価する。
言語モデルは哲学的判断をかなり相関しすぎており、ドメイン間の人工的なコンセンサスを生み出している。
- 参考スコア(独自算出の注目度): 31.60829263082994
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Silicon samples are increasingly used as a low-cost substitute for human panels and have been shown to reproduce aggregate human opinion with high fidelity. We show that, in the alignment-relevant domain of philosophy, silicon samples systematically collapse heterogeneity. Using data from $N = {277}$ professional philosophers drawn from PhilPeople profiles, we evaluate seven proprietary and open-source large language models on their ability to replicate individual philosophical positions and to preserve cross-question correlation structures across philosophical domains. We find that language models substantially over-correlate philosophical judgments, producing artificial consensus across domains. This collapse is associated in part with specialist effects, whereby models implicitly assume that domain specialists hold highly similar philosophical views. We assess the robustness of these findings by studying the impact of DPO fine-tuning and by validating results against the full PhilPapers 2020 Survey ($N = {1785}$). We conclude by discussing implications for alignment, evaluation, and the use of silicon samples as substitutes for human judgment. The code of this project can be found at https://github.com/stanford-del/silicon-philosophers.
- Abstract(参考訳): シリコンサンプルは、人間のパネルの安価な代替品としてますます使われ、高い忠実度で人間の意見の集合を再現することが示されている。
我々は、アライメント関連哲学領域において、シリコン試料が不均一性を体系的に崩壊することを示す。
N = {277}$プロの哲学者がPhilPeopleのプロフィールから作成したデータを用いて、個々の哲学的位置を再現し、哲学的領域をまたいだクロスクエクション相関構造を維持する能力について、7つのプロプライエタリでオープンソースの大言語モデルを評価する。
言語モデルは哲学的判断をかなり相関しすぎており、ドメイン間の人工的なコンセンサスを生み出している。
この崩壊は、ドメインの専門家が非常によく似た哲学的見解を持っていると暗黙的に仮定する、スペシャリストの影響と関連している。
本研究は,DPO微調整の影響を調査し,PhilPapers 2020の完全な調査結果(N = {1785}$)を検証することによって,これらの結果の堅牢性を評価する。
人間の判断の代用として, シリコン試料のアライメント, 評価, 使用について考察した。
プロジェクトのコードはhttps://github.com/stanford-del/silicon-philosophers.comにある。
関連論文リスト
- Probing Ethical Framework Representations in Large Language Models: Structure, Entanglement, and Methodological Challenges [43.1650681858003]
我々は,4B-72Bパラメータにまたがる6つのLLMにおいて,5つの倫理的枠組み(デオントロジー,実用主義,徳,正義,常識)にまたがる隠された表現を探索する。
我々の分析では、非対称な伝達パターンを持つ区別された倫理的部分空間が明らかにされている。例えば、デオントロジーは、部分的に美徳のシナリオに当てはまるが、コモンセンスプローブは、公正に破滅的に失敗する。
論文 参考訳(メタデータ) (2026-03-24T19:01:29Z) - Exploring Syntropic Frameworks in AI Alignment: A Philosophical Investigation [0.0]
AIアライメントは、プロセスベース、マルチエージェント、開発メカニズムを通じて、シントロピックで理由対応のエージェントを設計するものとして再認識されるべきである、と私は主張する。
コンテンツベースの値仕様が構造的に不安定なように見える理由を示す、仕様トラップの議論を明確にする。
マルチエージェントアライメントのダイナミクスを理解するための情報理論の枠組みとして, シントロピーを提案する。
論文 参考訳(メタデータ) (2025-11-19T23:31:29Z) - Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。
本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。
我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文 参考訳(メタデータ) (2025-07-10T07:11:57Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - The Moral Mind(s) of Large Language Models [0.0]
大規模言語モデル (LLM) は、その決定を導く道徳的嗜好の一貫性のある構造を示す。
確率論的合理性テストを用いて、各主要プロバイダの少なくとも1つのモデルが、ほぼ安定した道徳的嗜好と整合した振る舞いを示した。
そして、これらのユーティリティ関数を推定し、ほとんどのモデルが中立的な道徳的スタンスの周りに集まっていることを発見した。
論文 参考訳(メタデータ) (2024-11-19T15:40:16Z) - Political Bias in LLMs: Unaligned Moral Values in Agent-centric Simulations [0.0]
モーラル・ファンデーション理論アンケートにおいて,パーソナライズされた言語モデルと人間の反応がどのように一致しているかを検討する。
我々は、オープンソースの生成言語モデルを異なる政治的ペルソナに適応させ、これらのモデルを繰り返し調査し、合成データセットを生成する。
解析の結果,モデルが複数の繰り返しにまたがって不整合な結果をもたらし,高い応答差が生じることがわかった。
論文 参考訳(メタデータ) (2024-08-21T08:20:41Z) - Large Language Models are Few-Shot Training Example Generators: A Case Study in Fallacy Recognition [49.38757847011105]
計算誤認識は、さまざまなジャンル、ドメイン、データセットに見られる誤認識のタイプによって、課題に直面します。
我々は、追加の文脈を取り入れ、大規模な言語モデルを活用して合成データを生成することによって、誤認識のための既存のモデルを強化することを目指している。
評価結果は、誤検出タイプ、データセット、ジェネレータ間で一貫した改善を示す。
論文 参考訳(メタデータ) (2023-11-16T04:17:47Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。