論文の概要: Contemplative Wisdom for Superalignment
- arxiv url: http://arxiv.org/abs/2504.15125v1
- Date: Mon, 21 Apr 2025 14:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 14:56:36.354409
- Title: Contemplative Wisdom for Superalignment
- Title(参考訳): スーパーアライメントのための考察的な知恵
- Authors: Ruben Laukkonen, Fionn Inglis, Shamil Chandaria, Lars Sandved-Smith, Jakob Hohwy, Jonathan Gold, Adam Elwood,
- Abstract要約: 我々は、その認知アーキテクチャと世界モデルに組み込まれた本質的な道徳性を備えたAIの設計を提唱する。
実証的な知恵の伝統にインスパイアされた4つの公理原理が、AIシステムにレジリエントなWise World Modelを組み込むことができることを示す。
- 参考スコア(独自算出の注目度): 1.7143967091323253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As artificial intelligence (AI) improves, traditional alignment strategies may falter in the face of unpredictable self-improvement, hidden subgoals, and the sheer complexity of intelligent systems. Rather than externally constraining behavior, we advocate designing AI with intrinsic morality built into its cognitive architecture and world model. Inspired by contemplative wisdom traditions, we show how four axiomatic principles can instil a resilient Wise World Model in AI systems. First, mindfulness enables self-monitoring and recalibration of emergent subgoals. Second, emptiness forestalls dogmatic goal fixation and relaxes rigid priors. Third, non-duality dissolves adversarial self-other boundaries. Fourth, boundless care motivates the universal reduction of suffering. We find that prompting AI to reflect on these principles improves performance on the AILuminate Benchmark using GPT-4o, particularly when combined. We offer detailed implementation strategies for state-of-the-art models, including contemplative architectures, constitutions, and reinforcement of chain-of-thought. For future systems, the active inference framework may offer the self-organizing and dynamic coupling capabilities needed to enact these insights in embodied agents. This interdisciplinary approach offers a self-correcting and resilient alternative to prevailing brittle control schemes.
- Abstract(参考訳): 人工知能(AI)が向上するにつれ、従来のアライメント戦略は予測不可能な自己改善、隠れたサブゴール、知的システムの非常に複雑な状況に直面している。
外部から制約を受けるのではなく、認知アーキテクチャと世界モデルに組み込まれた本質的な道徳性を備えたAIの設計を提唱する。
実証的な知恵の伝統にインスパイアされた4つの公理原理が、AIシステムにレジリエントなWise World Modelを組み込むことができることを示す。
第一にマインドフルネスは、創発的なサブゴールの自己監視と再調整を可能にする。
第二に、空の森は犬のゴールを固定し、厳格な事前を緩和する。
第三に、非二重性は敵の自己他の境界を解消する。
第4に、無制限のケアは、苦しみの普遍的な減少を動機づける。
AIがこれらの原則を反映するように促すことで、特に組み合わせた場合、GPT-4oを使用したAILuminate Benchmarkのパフォーマンスが向上することがわかった。
我々は,概念的アーキテクチャや構成,チェーン・オブ・思想の強化など,最先端モデルの詳細な実装戦略を提供する。
将来のシステムでは、アクティブ推論フレームワークは、これらの洞察をエンボディエージェントで実行するのに必要な自己組織化と動的結合機能を提供する。
この学際的アプローチは、脆弱な制御方式に対する自己修正的でレジリエントな代替手段を提供する。
関連論文リスト
- Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems [133.45145180645537]
大規模言語モデル(LLM)の出現は、人工知能の変革的シフトを触媒している。
これらのエージェントがAI研究と実践的応用をますます推進するにつれて、その設計、評価、継続的な改善は複雑で多面的な課題を呈している。
この調査は、モジュール化された脳にインスパイアされたアーキテクチャ内でインテリジェントエージェントをフレーミングする、包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-03-31T18:00:29Z) - Universal AI maximizes Variational Empowerment [0.0]
我々は、自己学習エージェントであるSelf-AIXIの既存のフレームワークの上に構築する。
ユニバーサルAIエージェントのパワーサーキング傾向は、将来の報酬を確保するための手段戦略として説明できる、と我々は主張する。
私たちの主な貢献は、これらのモチベーションがAIエージェントを体系的に高オプション状態を探し、維持する方法を示すことです。
論文 参考訳(メタデータ) (2025-02-20T02:58:44Z) - Emergence of Self-Awareness in Artificial Systems: A Minimalist Three-Layer Approach to Artificial Consciousness [0.0]
本稿では,自己認識の出現に着目した,人工意識のための最小限の3層モデルを提案する。
脳複製アプローチとは異なり、本質的な要素のみを通して最小限の自己認識を実現することを目的としている。
論文 参考訳(メタデータ) (2025-02-04T10:06:25Z) - AI Ethics by Design: Implementing Customizable Guardrails for Responsible AI Development [0.0]
我々は、ルール、ポリシー、AIアシスタントを統合して、責任あるAI行動を保証する構造を提案する。
われわれのアプローチは倫理的多元主義に対応し、AIガバナンスの進化の展望に柔軟で適応可能なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-05T18:38:30Z) - Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - A call for embodied AI [1.7544885995294304]
我々は、人工知能の次の基本ステップとして、エンボディードAIを提案する。
Embodied AIの範囲を広げることで、認知アーキテクチャに基づく理論的枠組みを導入する。
このフレームワークはFristonのアクティブな推論原則と一致しており、EAI開発に対する包括的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-02-06T09:11:20Z) - Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
連続体としてモデル化された機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。
我々は、適応可能で堅牢だが制御可能で解釈可能なエージェントシステムを構築するために、よりハイブリッドなソリューションが必要であると論じている。
論文 参考訳(メタデータ) (2023-12-04T11:46:34Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - Distributed and Democratized Learning: Philosophy and Research
Challenges [80.39805582015133]
民主化学習(Dem-AI)という新しいデザイン哲学を提案する。
ヒトの社会的グループに触発され、提案されたDem-AIシステムの学習エージェントの専門グループは階層構造で自己組織化され、より効率的に学習タスクを遂行する。
本稿では,様々な学際分野に触発された未来のDem-AIシステムを実現するためのガイドラインとして,参照設計を提案する。
論文 参考訳(メタデータ) (2020-03-18T08:45:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。