論文の概要: A Framework for Inherently Safer AGI through Language-Mediated Active Inference
- arxiv url: http://arxiv.org/abs/2508.05766v1
- Date: Thu, 07 Aug 2025 18:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.97868
- Title: A Framework for Inherently Safer AGI through Language-Mediated Active Inference
- Title(参考訳): 言語媒介型アクティブ推論によるAGIを継承するフレームワーク
- Authors: Bo Wen,
- Abstract要約: 本稿では,アクティブ推論の原理とLarge Language Models(LLM)を組み合わせることにより,安全な人工知能(AGI)を開発するための新しい枠組みを提案する。
本稿では,透過的信念表現と階層的価値アライメントを通じて,安全保証をシステムの中核設計に統合するアーキテクチャを提案する。
このアーキテクチャはマルチエージェントシステムを実装しており、エージェントはアクティブ推論の原則に従って自己組織化される。
- 参考スコア(独自算出の注目度): 1.9761774213809036
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a novel framework for developing safe Artificial General Intelligence (AGI) by combining Active Inference principles with Large Language Models (LLMs). We argue that traditional approaches to AI safety, focused on post-hoc interpretability and reward engineering, have fundamental limitations. We present an architecture where safety guarantees are integrated into the system's core design through transparent belief representations and hierarchical value alignment. Our framework leverages natural language as a medium for representing and manipulating beliefs, enabling direct human oversight while maintaining computational tractability. The architecture implements a multi-agent system where agents self-organize according to Active Inference principles, with preferences and safety constraints flowing through hierarchical Markov blankets. We outline specific mechanisms for ensuring safety, including: (1) explicit separation of beliefs and preferences in natural language, (2) bounded rationality through resource-aware free energy minimization, and (3) compositional safety through modular agent structures. The paper concludes with a research agenda centered on the Abstraction and Reasoning Corpus (ARC) benchmark, proposing experiments to validate our framework's safety properties. Our approach offers a path toward AGI development that is inherently safer, rather than retrofitted with safety measures.
- Abstract(参考訳): 本稿では,アクティブ推論の原理とLarge Language Models(LLM)を組み合わせることにより,安全な人工知能(AGI)を開発するための新しい枠組みを提案する。
私たちは、ポストホック解釈性と報酬工学に焦点をあてた、AIの安全性に対する従来のアプローチには、根本的な制限がある、と論じています。
本稿では,透過的信念表現と階層的価値アライメントを通じて,安全保証をシステムの中核設計に統合するアーキテクチャを提案する。
本フレームワークは,自然言語を信念を表現・操作するための媒体として活用し,計算的トラクタビリティを維持しつつ,人間の直接的監視を可能にする。
このアーキテクチャはマルチエージェントシステムを実装しており、エージェントはアクティブ推論の原則に従って自己組織化される。
本稿では,(1)自然言語における信念と嗜好の明確な分離,(2)資源を考慮した自由エネルギー最小化による有界合理性,(3)モジュール型エージェント構造による構成安全など,安全性を確保するための具体的なメカニズムを概説する。
論文は、ARC(Abstraction and Reasoning Corpus)ベンチマークを中心とした研究課題をまとめ、フレームワークの安全性特性を検証する実験を提案した。
我々のアプローチは、安全対策に適合するのではなく、本質的に安全であるAGI開発への道を提供する。
関連論文リスト
- AURA: Affordance-Understanding and Risk-aware Alignment Technique for Large Language Models [6.059681491089391]
AURAは論理的一貫性と安全性を認識した総合的、段階的な評価を提供する。
本フレームワークは, 内省的自己批判, きめ細かいPRM評価, 適応型安全認識復号をシームレスに結合する。
この研究は、アライメントに敏感なアプリケーションのための新しいベンチマークを設定することで、より安全で責任があり、コンテキストに敏感なAIに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-08-08T08:43:24Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - Emotion-Gradient Metacognitive RSI (Part I): Theoretical Foundations and Single-Agent Architecture [0.0]
本稿では,内観的メタ認知と感情に基づく本質的モチベーションを統合した新しいアーキテクチャEG-MRSIフレームワークを提案する。
このフレームワークは、公式に制限されたリスクの下で、独自の学習アルゴリズムを明示的に上書きすることができる。
論文 参考訳(メタデータ) (2025-05-12T17:02:47Z) - CEE: An Inference-Time Jailbreak Defense for Embodied Intelligence via Subspace Concept Rotation [23.07221882519171]
大規模言語モデル(LLM)は、エンボディード・インテリジェンス(Embodied Intelligence, EI)システムの認知的コアになりつつある。
我々は,概念強化工学(CEE)という,新規で効率的な推論時防衛フレームワークを提案する。
CEEはモデルの内部表現を直接操作することで、モデル固有の安全性メカニズムを強化する。
論文 参考訳(メタデータ) (2025-04-15T03:50:04Z) - Towards AI-$45^{\circ}$ Law: A Roadmap to Trustworthy AGI [24.414787444128947]
我々は、信頼できるAGIに向けたバランスのとれたロードマップの指針として、textitAI-textbf$45circ$ Lawを提案する。
このフレームワークは、現在のAI能力と安全性研究のための体系的な分類と階層構造を提供する。
論文 参考訳(メタデータ) (2024-12-08T14:14:16Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。