論文の概要: Epistemic Constitutionalism Or: how to avoid coherence bias
- arxiv url: http://arxiv.org/abs/2601.14295v1
- Date: Fri, 16 Jan 2026 07:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.080035
- Title: Epistemic Constitutionalism Or: how to avoid coherence bias
- Title(参考訳): エピステマティックな立憲主義:コヒーレンスバイアスを避ける方法
- Authors: Michele Loi,
- Abstract要約: 本稿では、システムがどのように形成し、どのように信念を表現するかを規定する、明示的で議論の余地のあるメタノルムを論じる。
私は、フロンティアモデルが、予想されるイデオロギー的位置が議論の内容と矛盾するソースに起因する議論を罰するアイデンティティ・スタンス・コヒーレンスを強制していることを示します。
私は、正式な正当性とデフォルトのソース独立を規定するプラトンと、そのような特権を拒否する自由主義の2つの立憲的アプローチを区別します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models increasingly function as artificial reasoners: they evaluate arguments, assign credibility, and express confidence. Yet their belief-forming behavior is governed by implicit, uninspected epistemic policies. This paper argues for an epistemic constitution for AI: explicit, contestable meta-norms that regulate how systems form and express beliefs. Source attribution bias provides the motivating case: I show that frontier models enforce identity-stance coherence, penalizing arguments attributed to sources whose expected ideological position conflicts with the argument's content. When models detect systematic testing, these effects collapse, revealing that systems treat source-sensitivity as bias to suppress rather than as a capacity to execute well. I distinguish two constitutional approaches: the Platonic, which mandates formal correctness and default source-independence from a privileged standpoint, and the Liberal, which refuses such privilege, specifying procedural norms that protect conditions for collective inquiry while allowing principled source-attending grounded in epistemic vigilance. I argue for the Liberal approach, sketch a constitutional core of eight principles and four orientations, and propose that AI epistemic governance requires the same explicit, contestable structure we now expect for AI ethics.
- Abstract(参考訳): 大規模言語モデルは、議論を評価し、信頼性を割り当て、信頼を表現する、人工推論者としてますます機能する。
しかし、彼らの信条形成行動は暗黙的で無視できない疫学政策によって支配されている。
本稿では,システムの形成と信念の表現を規定する,明示的で議論の余地のあるメタノルムという,AIのエピステマティックな構成を論じる。
私はフロンティアモデルがアイデンティティ・スタンス・コヒーレンス(アイデンティティ・スタンス・コヒーレンス)を強制し、予想されるイデオロギー的位置が議論の内容と矛盾するソースに起因する議論を罰することを示します。
モデルが系統的なテストを検出すると、これらの効果は崩壊し、システムはソース感度をうまく実行する能力ではなく、バイアスとして扱い、抑制することを示した。
私は、正式な正当性とデフォルトのソース依存を特権的な立場から規定するプラトンと、そのような特権を拒否する自由党とを区別する。
リベラルなアプローチを議論し、8つの原則と4つの方向性の立憲的なコアをスケッチし、AIのエピステマティックガバナンスは、私たちが現在AI倫理に期待しているのと同じ明示的で挑戦可能な構造を必要としている、と提案します。
関連論文リスト
- The MEVIR Framework: A Virtue-Informed Moral-Epistemic Model of Human Trust Decisions [0.0]
本稿では,Moral-Epistemic VIRtue informed (MEVIR)フレームワークを紹介する。
フレームワークの中心は、存在論的概念 – 真理ベアラー、真理メーカー、オントロジーアンパック – である。
報告は、プロパガンダ、心理的操作、エコーチャンバーがどのようにMEVIRプロセスを利用するかを分析する。
論文 参考訳(メタデータ) (2025-12-02T01:11:35Z) - Exploring Syntropic Frameworks in AI Alignment: A Philosophical Investigation [0.0]
AIアライメントは、プロセスベース、マルチエージェント、開発メカニズムを通じて、シントロピックで理由対応のエージェントを設計するものとして再認識されるべきである、と私は主張する。
コンテンツベースの値仕様が構造的に不安定なように見える理由を示す、仕様トラップの議論を明確にする。
マルチエージェントアライメントのダイナミクスを理解するための情報理論の枠組みとして, シントロピーを提案する。
論文 参考訳(メタデータ) (2025-11-19T23:31:29Z) - Epistemic Deference to AI [0.01692139688032578]
AIシステムの中には、人工てんかん(AEA)がある、と私は主張する。
AEAは、ユーザの独立したてんかんに対する完全な代替ではなく、貢献的な理由として機能すべきである。
実際には要求されているが、このアカウントはAIの推論が正当化されるタイミングを決定するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2025-10-23T22:55:51Z) - The Epistemic Suite: A Post-Foundational Diagnostic Methodology for Assessing AI Knowledge Claims [0.7233897166339268]
本稿では,AI出力の生成と受信の状況を理解するための診断手法であるEpistemic Suiteを紹介する。
真実や虚偽を判断する代わりに、スイートは20個の診断レンズを通して、信頼の洗浄、物語の圧縮、異動した権威、一時的な漂流などのパターンを明らかにする。
論文 参考訳(メタデータ) (2025-09-20T00:29:38Z) - Cognitive Castes: Artificial Intelligence, Epistemic Stratification, and the Dissolution of Democratic Discourse [0.0]
この議論は、現代のAIシステムが抽象化、記号論理、敵の尋問を備えた個人の推論能力をいかに増幅するかを辿る。
提案された回答は、技術的規制や普遍的なアクセスではなく、市民の委任として合理的な自治の再構築である。
論文 参考訳(メタデータ) (2025-07-16T08:46:45Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Are language models rational? The case of coherence norms and belief revision [63.78798769882708]
我々は、論理的コヒーレンス規範と、言語モデルにおける信念の強さに結びついたコヒーレンス規範を考察する。
コヒーレンスに結びついた有理ノルムはいくつかの言語モデルに適用できるが、他のモデルには適用されない。
論文 参考訳(メタデータ) (2024-06-05T16:36:21Z) - A Semantic Approach to Decidability in Epistemic Planning (Extended
Version) [72.77805489645604]
我々は決定可能性を達成するために新しい意味論的アプローチを用いる。
具体的には、知識の論理S5$_n$と(知識)可換性と呼ばれる相互作用公理を拡大する。
我々は,本フレームワークが,独立した知識である共通知識の有限的非固定点的特徴を認めていることを証明した。
論文 参考訳(メタデータ) (2023-07-28T11:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。