論文の概要: AI Safety, Alignment, and Ethics (AI SAE)
- arxiv url: http://arxiv.org/abs/2509.24065v2
- Date: Thu, 16 Oct 2025 01:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 16:37:10.519622
- Title: AI Safety, Alignment, and Ethics (AI SAE)
- Title(参考訳): AI安全性、アライメント、倫理(AI SAE)
- Authors: Dylan Waldner,
- Abstract要約: モラルノルム(英: Moral norms)は、選択圧力下での協調動作を可能にする適応的なメカニズムである。
現在のアライメントアプローチは倫理をポストホックとして追加し、協力のための進化戦略として組み込むのではなく、外部の制約として扱う。
モラル表現学習をシステムレベルの設計と制度的なガバナンスに結びつけるガバナンス-埋め込み-表現パイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper grounds ethics in evolutionary biology, viewing moral norms as adaptive mechanisms that render cooperation fitness-viable under selection pressure. Current alignment approaches add ethics post hoc, treating it as an external constraint rather than embedding it as an evolutionary strategy for cooperation. The central question is whether normative architectures can be embedded directly into AI systems to sustain human--AI cooperation (symbiosis) as capabilities scale. To address this, I propose a governance--embedding--representation pipeline linking moral representation learning to system-level design and institutional governance, treating alignment as a multi-level problem spanning cognition, optimization, and oversight. I formalize moral norm representation through the moral problem space, a learnable subspace in neural representations where cooperative norms can be encoded and causally manipulated. Using sparse autoencoders, activation steering, and causal interventions, I outline a research program for engineering moral representations and embedding them into the full semantic space -- treating competing theories of morality as empirical hypotheses about representation geometry rather than philosophical positions. Governance principles leverage these learned moral representations to regulate how cooperative behaviors evolve within the AI ecosystem. Through replicator dynamics and multi-agent game theory, I model how internal representational features can shape population-level incentives by motivating the design of sanctions and subsidies structured to yield decentralized normative institutions.
- Abstract(参考訳): 本稿では, 進化生物学における倫理を基礎として, 倫理規範を適応的なメカニズムとして捉え, 選択圧力下での協調動作を可能とする。
現在のアライメントアプローチは、倫理をポストホックとして追加し、協力のための進化戦略として組み込むのではなく、外部の制約として扱う。
中心的な課題は、人間のAI協力(共生)を能力尺度として、AIシステムに直接組み込むことができるかどうかである。これを解決するために、モラル表現学習をシステムレベルの設計と制度的なガバナンスに結びつけるガバナンス-埋め込み-表現パイプラインを提案し、アライメントを認知、最適化、監視という多段階の問題として扱う。
道徳的問題空間を通じて道徳的規範表現を形式化し、協調的規範をエンコードし、因果的に操作できる神経表現における学習可能な部分空間とする。
スパースオートエンコーダ、アクティベーションステアリング、因果的介入を用いて、工学的モラル表現の研究プログラムを概説し、それらを完全な意味空間に埋め込み、道徳性の競合する理論を、哲学的位置よりも表現幾何学に関する実証的な仮説として扱う。
ガバナンスの原則は、これらの学習されたモラル表現を利用して、AIエコシステム内での協調行動の進化を規制する。
複製子力学とマルチエージェントゲーム理論を通じて、私は、非集中的な規範的制度を生み出すために構成された制裁や補助金の設計を動機付けることによって、内部表現的特徴が集団レベルのインセンティブを形成することができるかをモデル化する。
関連論文リスト
- Empirical AI Ethics: Reconfiguring Ethics towards a Situated, Plural, and Transformative Approach [0.0]
批判者はAI倫理がしばしば「倫理洗浄」の実践を通じて企業利益に寄与すると主張している
本稿では,AI倫理の分野を批判的に問うために,科学技術研究の視点を採用する。
論文 参考訳(メタデータ) (2025-09-22T12:58:15Z) - The AI Ethical Resonance Hypothesis: The Possibility of Discovering Moral Meta-Patterns in AI Systems [0.0]
この論文は、人間の心に見えない微妙な道徳的パターンを識別する能力によって、高度なAIシステムが出現する可能性を示唆している。
この論文は、大量の倫理的文脈を処理し、合成することによって、AIシステムは文化的、歴史的、個人的バイアスを超越する道徳的メタパターンを発見する可能性を探求する。
論文 参考訳(メタデータ) (2025-07-13T08:28:06Z) - PRISM: Perspective Reasoning for Integrated Synthesis and Mediation as a Multi-Perspective Framework for AI Alignment [0.0]
Perspective Reasoning for Integrated Synthesis and Mediation (PRISM)は、AIアライメントにおける永続的な課題に対処するフレームワークである。
PRISMは道徳的懸念を7つの「基本世界観」にまとめ、それぞれが人間の道徳的認知の異なる次元を捉えていると仮定している。
現実の展開や形式的検証など,今後の方向性を概説するとともに,マルチパースペクティブな合成とコンフリクトの仲介に重点を置きながら,今後の方向性を概説する。
論文 参考訳(メタデータ) (2025-02-05T02:13:57Z) - Technology as uncharted territory: Contextual integrity and the notion of AI as new ethical ground [51.85131234265026]
私は、責任と倫理的AIを促進する努力が、確立された文脈規範に対するこの軽視に必然的に貢献し、正当化することができると論じます。
私は、道徳的保護よりも道徳的革新のAI倫理における現在の狭い優先順位付けに疑問を呈する。
論文 参考訳(メタデータ) (2024-12-06T15:36:13Z) - Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
連続体としてモデル化された機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。
我々は、適応可能で堅牢だが制御可能で解釈可能なエージェントシステムを構築するために、よりハイブリッドなソリューションが必要であると論じている。
論文 参考訳(メタデータ) (2023-12-04T11:46:34Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - Reinforcement Learning Under Moral Uncertainty [13.761051314923634]
機械学習の野心的な目標は、倫理的に振る舞うエージェントを作ることだ。
倫理的エージェントは、特定の道徳理論の下で正しい行動に報いることによって訓練することができるが、道徳性の本質について広く意見の相違がある。
本稿では、競合するデシダラタの異なる点を実現するための2つのトレーニング手法を提案し、モラルの不確実性の下で行動するための単純な環境におけるエージェントを訓練する。
論文 参考訳(メタデータ) (2020-06-08T16:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。