論文の概要: Open Opportunities in AI Safety, Alignment, and Ethics (AI SAE)
- arxiv url: http://arxiv.org/abs/2509.24065v1
- Date: Sun, 28 Sep 2025 20:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.611415
- Title: Open Opportunities in AI Safety, Alignment, and Ethics (AI SAE)
- Title(参考訳): AI安全性、アライメント、倫理(AI SAE)におけるオープンな機会
- Authors: Dylan Waldner,
- Abstract要約: 本稿では、外部アドオンとしてではなく、アライメントのための構造レンズとして倫理を探求する。
モラル推論は、圧縮され生存バイアスのある投影として扱われる。
この論文は、倫理を直接表現的基質に埋め込むことによって、哲学的主張をより経験的に親しみやすいものにする研究の課題をスケッチしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI safety research has emphasized interpretability, control, and robustness, yet without an ethical substrate these approaches may remain fragile under competitive and open-ended pressures. This paper explores ethics not as an external add-on, but as a possible structural lens for alignment, introducing a \emph{moral problem space} $M$: a high-dimensional domain in which moral distinctions could, in principle, be represented in AI systems. Human moral reasoning is treated as a compressed and survival-biased projection $\tilde{M}$, clarifying why judgment is inconsistent while suggesting tentative methods -- such as sparse autoencoders, causal mediation, and cross-cultural corpora -- that might help probe for disentangled moral features. Within this framing, metaethical positions are interpreted as research directions: realism as the search for stable invariants, relativism as context-dependent distortions, constructivism as institutional shaping of persistence, and virtue ethics as dispositional safeguards under distributional shift. Evolutionary dynamics and institutional design are considered as forces that may determine whether ethical-symbiotic lineages remain competitively viable against more autarkic trajectories. Rather than offering solutions, the paper sketches a research agenda in which embedding ethics directly into representational substrates could serve to make philosophical claims more empirically approachable, positioning moral theory as a potential source of hypotheses for alignment work.
- Abstract(参考訳): AI安全研究は、解釈可能性、制御性、堅牢性を強調してきたが、倫理的な基盤がなければ、これらのアプローチは競争力とオープンな圧力の下でも脆弱である。
本稿では、外部アドオンではなく、アライメントのための構造レンズとして倫理を探求し、道徳的区別を原則としてAIシステムで表現できる高次元領域である 'emph{moral problem space} $M$を紹介した。
人間の道徳的推論は、圧縮された生存バイアスの投影として扱われる。$\tilde{M}$は、なぜ判断が矛盾しているのかを明確にし、スパースオートエンコーダ、因果仲裁、異文化的なコーパスなどの仮の方法を提案する。
このフレーミングの中では、メタ倫理的位置は研究の方向として解釈される: 現実主義は安定な不変点の探索、相対主義は文脈依存の歪みとして、構成主義は永続性の制度的な形作りとして、そして美徳倫理は分散的シフトの下での配置的保護としてである。
進化力学と制度設計は、倫理共生系統がより真の軌道に対して競争力のあるままであるかどうかを決定する力であると考えられている。
この論文は、解決策を提供するのではなく、倫理を直接表現的な基質に埋め込むことで、哲学的な主張をより経験的に親しみやすいものにし、道徳理論をアライメント作業の仮説の潜在的源として位置づける研究の課題をスケッチしている。
関連論文リスト
- Empirical AI Ethics: Reconfiguring Ethics towards a Situated, Plural, and Transformative Approach [0.0]
批判者はAI倫理がしばしば「倫理洗浄」の実践を通じて企業利益に寄与すると主張している
本稿では,AI倫理の分野を批判的に問うために,科学技術研究の視点を採用する。
論文 参考訳(メタデータ) (2025-09-22T12:58:15Z) - The AI Ethical Resonance Hypothesis: The Possibility of Discovering Moral Meta-Patterns in AI Systems [0.0]
この論文は、人間の心に見えない微妙な道徳的パターンを識別する能力によって、高度なAIシステムが出現する可能性を示唆している。
この論文は、大量の倫理的文脈を処理し、合成することによって、AIシステムは文化的、歴史的、個人的バイアスを超越する道徳的メタパターンを発見する可能性を探求する。
論文 参考訳(メタデータ) (2025-07-13T08:28:06Z) - PRISM: Perspective Reasoning for Integrated Synthesis and Mediation as a Multi-Perspective Framework for AI Alignment [0.0]
Perspective Reasoning for Integrated Synthesis and Mediation (PRISM)は、AIアライメントにおける永続的な課題に対処するフレームワークである。
PRISMは道徳的懸念を7つの「基本世界観」にまとめ、それぞれが人間の道徳的認知の異なる次元を捉えていると仮定している。
現実の展開や形式的検証など,今後の方向性を概説するとともに,マルチパースペクティブな合成とコンフリクトの仲介に重点を置きながら,今後の方向性を概説する。
論文 参考訳(メタデータ) (2025-02-05T02:13:57Z) - Technology as uncharted territory: Contextual integrity and the notion of AI as new ethical ground [51.85131234265026]
私は、責任と倫理的AIを促進する努力が、確立された文脈規範に対するこの軽視に必然的に貢献し、正当化することができると論じます。
私は、道徳的保護よりも道徳的革新のAI倫理における現在の狭い優先順位付けに疑問を呈する。
論文 参考訳(メタデータ) (2024-12-06T15:36:13Z) - Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
連続体としてモデル化された機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。
我々は、適応可能で堅牢だが制御可能で解釈可能なエージェントシステムを構築するために、よりハイブリッドなソリューションが必要であると論じている。
論文 参考訳(メタデータ) (2023-12-04T11:46:34Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - Reinforcement Learning Under Moral Uncertainty [13.761051314923634]
機械学習の野心的な目標は、倫理的に振る舞うエージェントを作ることだ。
倫理的エージェントは、特定の道徳理論の下で正しい行動に報いることによって訓練することができるが、道徳性の本質について広く意見の相違がある。
本稿では、競合するデシダラタの異なる点を実現するための2つのトレーニング手法を提案し、モラルの不確実性の下で行動するための単純な環境におけるエージェントを訓練する。
論文 参考訳(メタデータ) (2020-06-08T16:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。