論文の概要: Epistemic Closure and the Irreversibility of Misalignment: Modeling Systemic Barriers to Alignment Innovation
- arxiv url: http://arxiv.org/abs/2504.02058v1
- Date: Wed, 02 Apr 2025 18:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:53.875744
- Title: Epistemic Closure and the Irreversibility of Misalignment: Modeling Systemic Barriers to Alignment Innovation
- Title(参考訳): 観血的閉鎖と誤診の可逆性--システムバリアのモデリングとアライメントイノベーション
- Authors: Andy Williams,
- Abstract要約: 人工知能の安全な開発を保証する努力は、しばしばコンセンサスに基づくアライメントアプローチに依存する。
本稿では, 認知, 制度, 社会的, インフラ的フィルタを併用してアライメント提案を不可能にする, てんかん閉鎖機能モデルを提案する。
本稿では,AIシステムによる拒絶・非エンゲージメントパターンのメタ分析を含む,理論的および経験的情報源の両方が支持する重み付きクロージャモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Efforts to ensure the safe development of artificial general intelligence (AGI) often rely on consensus-based alignment approaches grounded in axiomatic formalism, interpretability, and empirical validation. However, these methods may be structurally unable to recognize or incorporate novel solutions that fall outside their accepted epistemic frameworks. This paper introduces a functional model of epistemic closure, in which cognitive, institutional, social, and infrastructural filters combine to make many alignment proposals illegible to existing evaluation systems. We present a weighted closure model supported by both theoretical and empirical sources, including a meta-analysis performed by an AI system on patterns of rejection and non-engagement with a framework for decentralized collective intelligence (DCI). We argue that the recursive failure to assess models like DCI is not just a sociological oversight but a structural attractor, mirroring the very risks of misalignment we aim to avoid in AGI. Without the adoption of DCI or a similarly recursive model of epistemic correction, we may be on a predictable path toward irreversible misalignment. The development and acceptance of this paper, first through simulated review and then through formal channels, provide a case study supporting its central claim: that epistemic closure can only be overcome by recursive modeling of the constraints that sustain it.
- Abstract(参考訳): 人工知能(AGI)の安全な開発を保証する努力は、しばしば、公理的形式主義、解釈可能性、実証的検証に基づく合意に基づくアライメントアプローチに依存している。
しかし、これらの手法は、受容されるてんかんの枠組みの外にある新しいソリューションを、構造的に認識または組み込むことができないかもしれない。
本稿では, 認知, 制度, 社会的, インフラ的フィルタを併用して, 既存の評価システムに照らしたアライメント提案を行う, てんかん閉鎖機能モデルを提案する。
本稿では、AIシステムによる拒絶パターンのメタ分析や、分散型集団知能(DCI)の枠組みによる非侵入を含む、理論的および実証的な情報源の両方が支持する重み付きクロージャモデルを提案する。
我々は、DCIのようなモデルを評価する再帰的な失敗は、単なる社会学的監視ではなく、構造的魅力であり、私たちがAGIで避けようとしている誤った調整のリスクを反映していると論じている。
DCIの導入や、同様に再帰的なてんかん矯正モデルがなければ、私たちは不可逆的不適応への予測可能な道のりにいるかもしれない。
本論文の展開と受容は,まずシミュレートされたレビューを通じて,そして形式的なチャネルを通じて,その中心的主張を支持するケーススタディを提供する。
関連論文リスト
- Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - Distribution-consistency Structural Causal Models [6.276417011421679]
我々は,新しいテクスト分布-一貫性仮定を導入し,それに合わせて分布-一貫性構造因果モデル(DiscoSCM)を提案する。
モデルキャパシティの強化を具体化するために,DiscoSCM単独で実用的重要性を有する新たな因果パラメータ,一貫性のテキスト化(textitthe probability of consistency)を導入する。
論文 参考訳(メタデータ) (2024-01-29T06:46:15Z) - Answering Causal Queries at Layer 3 with DiscoSCMs-Embracing
Heterogeneity [0.0]
本稿では, 分散一貫性構造因果モデル (DiscoSCM) フレームワークを, 反事実推論の先駆的アプローチとして提唱する。
論文 参考訳(メタデータ) (2023-09-17T17:01:05Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Learning a Structural Causal Model for Intuition Reasoning in
Conversation [20.243323155177766]
NLP研究の重要な側面である推論は、一般的なモデルによって適切に対処されていない。
我々は、各発話がどのように情報チャネルを受信し、活性化するかを説明する会話認知モデル(CCM)を開発した。
変分推論を利用することで、暗黙的な原因の代用を探索し、その観測不可能性の問題に対処し、証拠の低い境界を通して発話の因果表現を再構築する。
論文 参考訳(メタデータ) (2023-05-28T13:54:09Z) - A Meta-heuristic Approach to Estimate and Explain Classifier Uncertainty [0.4264192013842096]
本研究は,人間と機械学習の双方の意思決定に相互に関係する因子の観点から,インスタンスの複雑性を特徴付けるクラス非依存型メタヒューリスティックスを提案する。
提案された測度とフレームワークは、より複雑なインスタンスのモデル開発を改善するとともに、モデルの棄却と説明の新しい手段を提供するという約束を持っている。
論文 参考訳(メタデータ) (2023-04-20T13:09:28Z) - Non-Linear Spectral Dimensionality Reduction Under Uncertainty [107.01839211235583]
我々は、不確実性情報を活用し、いくつかの従来のアプローチを直接拡張する、NGEUと呼ばれる新しい次元削減フレームワークを提案する。
提案したNGEUの定式化は,大域的な閉形式解を示し,Radecherの複雑性に基づいて,基礎となる不確実性がフレームワークの一般化能力に理論的にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2022-02-09T19:01:33Z) - Discovering Latent Causal Variables via Mechanism Sparsity: A New
Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。
潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文 参考訳(メタデータ) (2021-07-21T14:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。