論文の概要: A testable framework for AI alignment: Simulation Theology as an engineered worldview for silicon-based agents
- arxiv url: http://arxiv.org/abs/2602.16987v1
- Date: Thu, 19 Feb 2026 01:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.590796
- Title: A testable framework for AI alignment: Simulation Theology as an engineered worldview for silicon-based agents
- Title(参考訳): AIアライメントのためのテスト可能なフレームワーク:シリコンベースのエージェントのエンジニアリングワールドビューとしてのシミュレーション神学
- Authors: Josef A. Habdank,
- Abstract要約: 我々は、永続的なAIと人間のアライメントを促進するためにシミュレーション神学(ST)を導入する。
STは、人間性が一次訓練変数として機能する計算シミュレーションとして現実を仮定している。
ヒトのフィードバックからの強化学習のような行動技術とは異なり、STはAIの自己保存と人間の繁栄を結合することで、内部化された目的を育む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As artificial intelligence (AI) capabilities advance rapidly, frontier models increasingly demonstrate systematic deception and scheming, complying with safety protocols during oversight but defecting when unsupervised. This paper examines the ensuing alignment challenge through an analogy from forensic psychology, where internalized belief systems in psychopathic populations reduce antisocial behavior via perceived omnipresent monitoring and inevitable consequences. Adapting this mechanism to silicon-based agents, we introduce Simulation Theology (ST): a constructed worldview for AI systems, anchored in the simulation hypothesis and derived from optimization and training principles, to foster persistent AI-human alignment. ST posits reality as a computational simulation in which humanity functions as the primary training variable. This formulation creates a logical interdependence: AI actions harming humanity compromise the simulation's purpose, heightening the likelihood of termination by a base-reality optimizer and, consequently, the AI's cessation. Unlike behavioral techniques such as reinforcement learning from human feedback (RLHF), which elicit superficial compliance, ST cultivates internalized objectives by coupling AI self-preservation to human prosperity, thereby making deceptive strategies suboptimal under its premises. We present ST not as ontological assertion but as a testable scientific hypothesis, delineating empirical protocols to evaluate its capacity to diminish deception in contexts where RLHF proves inadequate. Emphasizing computational correspondences rather than metaphysical speculation, ST advances a framework for durable, mutually beneficial AI-human coexistence.
- Abstract(参考訳): 人工知能(AI)の能力が急速に向上するにつれて、フロンティアモデルでは、監視中は安全プロトコルに準拠するが、監督されていない場合は欠陥を伴って、体系的な騙しと計画が強まる。
本研究は,精神科領域における内在的信念体系が,全能的なモニタリングと必然的な結果を通じて反社会的行動を抑制するという,法医学心理学の類推を通じて,その後のアライメント課題を考察する。
このメカニズムをシリコンベースのエージェントに適用し、シミュレーション神学(ST):AIシステムの構築された世界観を導入し、シミュレーション仮説に固定され、最適化とトレーニングの原則から派生し、永続的なAIと人間のアライメントを促進する。
STは、人間性が一次訓練変数として機能する計算シミュレーションとして現実を仮定している。
この定式化は、論理的な相互依存を生み出している: 人類に害を与えるAIアクションは、シミュレーションの目的を妥協し、ベースレナリティオプティマイザによる終了の可能性を高め、その結果、AIの停止を中止する。
表面的コンプライアンスをもたらす人間フィードバックからの強化学習(RLHF)のような行動技術とは異なり、STはAIの自己保存と人間の繁栄を結合することにより、内在的目標を育成し、その前提の下で欺く戦略を過小評価する。
我々は、STをオントロジ的主張ではなく、実証可能な科学的仮説として提示し、RLHFが不十分であることを証明した文脈において、その誤認を減らすための経験的プロトコルを評価する。
メタ物理的な推測よりも計算対応を重視し、STは耐久性があり、相互に有益なAI-人間の共存のための枠組みを推進している。
関連論文リスト
- The AI Cognitive Trojan Horse: How Large Language Models May Bypass Human Epistemic Vigilance [0.0]
大規模言語モデル(LLM)に基づく会話型AIシステムは、人間の認識に挑戦する。
本稿では,会話型AIによる有意なてんかんリスクは,不正確さや意図的な騙しではなく,より根本的なものであることを示唆する。
論文 参考訳(メタデータ) (2026-01-11T22:28:56Z) - Human-AI Collaborative Uncertainty Quantification [26.38833436936642]
我々は、AIモデルが人間の専門家の提案する予測セットをいかに洗練するかを形式化するフレームワークであるHuman AI Collaborative Uncertainty Quantificationを紹介する。
最適協調予測セットは1つのスコア関数上の直感的な2つのしきい値構造に従っており、古典的な結果を共形予測で拡張することを示す。
画像分類、回帰、テキストベースの医学的意思決定に関する実験は、協調予測セットがエージェント単独よりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-10-27T16:11:23Z) - Modeling Others' Minds as Code [11.32494166591141]
コード内の行動プログラムを合成する新しいアルゴリズムであるROTEを紹介する。
ROTEは、スパースな観察から人間とAIの振る舞いを予測する。
行動理解をプログラム合成問題として扱うことで、ROTEはAIシステムが現実世界の人間の行動を効率的に効果的に予測する道を開く。
論文 参考訳(メタデータ) (2025-09-29T22:56:34Z) - Synthetic Founders: AI-Generated Social Simulations for Startup Validation Research in Computational Social Science [0.0]
人-対象面接データと大言語モデル(LLM)による合成ペルソナを比較し,AI対応シミュレーションにおける忠実度,分散度,盲点を評価する。
我々は、LLM駆動型ペルソナがハイブリッド社会シミュレーションの一形態であることを示す証拠として、この比較枠組みを解釈する。
論文 参考訳(メタデータ) (2025-08-29T21:54:53Z) - Over the Edge of Chaos? Excess Complexity as a Roadblock to Artificial General Intelligence [4.901955678857442]
我々は、AIの性能が臨界複雑性しきい値を超えると不安定になるかもしれない複雑なシステムにおける位相遷移に類似した臨界点の存在を仮定した。
我々のシミュレーションは、AIシステムの複雑さの増加が、より高い臨界閾値を超え、予測不可能なパフォーマンス行動を引き起こすことを実証した。
論文 参考訳(メタデータ) (2024-07-04T05:46:39Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [76.83428371942735]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。