論文の概要: Personalized Constitutionally-Aligned Agentic Superego: Secure AI Behavior Aligned to Diverse Human Values
- arxiv url: http://arxiv.org/abs/2506.13774v2
- Date: Fri, 08 Aug 2025 20:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:53.168316
- Title: Personalized Constitutionally-Aligned Agentic Superego: Secure AI Behavior Aligned to Diverse Human Values
- Title(参考訳): 多様な人的価値に配慮したセキュアなAI行動
- Authors: Nell Watson, Ahmed Amer, Evan Harris, Preeti Ravindra, Shujun Zhang,
- Abstract要約: スーパーエージェントがユーザー選択型「クリードコンスティチューション」を参考にAIプランニングを主導
リアルタイムコンプライアンス執行機関は、これらの憲法に対する計画を検証する。
システムは最大98.3%の有害スコアの減少とほぼ完全な拒絶率を達成する。
- 参考スコア(独自算出の注目度): 0.6640968473398455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic AI systems, possessing capabilities for autonomous planning and action, show great potential across diverse domains. However, their practical deployment is hindered by challenges in aligning their behavior with varied human values, complex safety requirements, and specific compliance needs. Existing alignment methodologies often falter when faced with the complex task of providing personalized context without inducing confabulation or operational inefficiencies. This paper introduces a novel solution: a 'superego' agent, designed as a personalized oversight mechanism for agentic AI. This system dynamically steers AI planning by referencing user-selected 'Creed Constitutions' encapsulating diverse rule sets -- with adjustable adherence levels to fit non-negotiable values. A real-time compliance enforcer validates plans against these constitutions and a universal ethical floor before execution. We present a functional system, including a demonstration interface with a prototypical constitution-sharing portal, and successful integration with third-party models via the Model Context Protocol (MCP). Comprehensive benchmark evaluations (HarmBench, AgentHarm) demonstrate that our Superego agent dramatically reduces harmful outputs -- achieving up to a 98.3% harm score reduction and near-perfect refusal rates (e.g., 100% with Claude Sonnet 4 on AgentHarm's harmful set) for leading LLMs like Gemini 2.5 Flash and GPT-4o. This approach substantially simplifies personalized AI alignment, rendering agentic systems more reliably attuned to individual and cultural contexts, while also enabling substantial safety improvements. An overview on this research with examples is available at https://superego.creed.space.
- Abstract(参考訳): 自律的な計画と行動の能力を持つエージェントAIシステムは、さまざまなドメインにまたがる大きな可能性を示している。
しかしながら、彼らの実践的なデプロイメントは、振る舞いをさまざまな人的価値、複雑な安全要件、特定のコンプライアンス要求と整合させることの難しさによって妨げられています。
既存のアライメント手法は、コミュニケーションや運用上の非効率を誘発することなく、パーソナライズされたコンテキストを提供するという複雑なタスクに直面した時に、しばしば混乱する。
本稿ではエージェントAIのための個人化された監視機構として設計された「スーパーエゴ」エージェントについて紹介する。
このシステムは、さまざまなルールセットをカプセル化したユーザ選択の"Creed Constitutions"を参照することで、AI計画を動的に操縦する。
リアルタイムコンプライアンス執行機関は、実行前にこれらの憲法と普遍的な倫理的フロアに対する計画を検証する。
本稿では,プロトタイプな構成共有ポータルを備えたデモインタフェースと,モデルコンテキストプロトコル(MCP)によるサードパーティモデルとの統合を成功させる機能システムを提案する。
包括的なベンチマーク評価(HarmBench, AgentHarm)は、我々のSuperegoエージェントが有害な出力を劇的に削減し、Gemini 2.5 Flash や GPT-4o のような LLM をリードする上で、98.3% の有害スコアの削減とほぼ完全な拒絶率(AgentHarm の有害セットでは Claude Sonnet 4 で100%)を達成することを実証している。
このアプローチは、パーソナライズされたAIアライメントを大幅に単純化し、エージェントシステムを個人と文化のコンテキストにより確実に調整すると同時に、実質的な安全性の向上を可能にします。
この研究の概要はhttps://superego.creed.space.comで公開されている。
関連論文リスト
- FedStrategist: A Meta-Learning Framework for Adaptive and Robust Aggregation in Federated Learning [0.10241134756773229]
フェデレートラーニング(FL)は、プライバシ保護のための協調AIのパラダイムを提供するが、その分散された性質は、毒殺攻撃をモデル化するための重大な脆弱性を生み出している。
本稿では、ロバストアグリゲーションをリアルタイムでコストを意識した制御問題として再編成する新しいメタラーニングフレームワークであるFedStrategistを紹介する。
論文 参考訳(メタデータ) (2025-07-18T18:53:26Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - Scalable, Symbiotic, AI and Non-AI Agent Based Parallel Discrete Event Simulations [0.0]
本稿では,複数のAIエージェントと非AIエージェントを組み合わせた並列離散イベントシミュレーション(PDES)手法を提案する。
我々は、4つの異なるドメインから4つの問題を解き、その結果をAIモデルだけで比較することで、我々のアプローチを評価する。
その結果,バニラモデルの精度が23%未満であるため,アプローチ全体の精度は68%であった。
論文 参考訳(メタデータ) (2025-05-28T17:50:01Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [75.85554113398626]
我々は、AIウェブナビゲーションエージェントがデータ最小化のプライバシー原則に従うかどうかを測定する新しいベンチマークAgentDAMを紹介する。
我々のベンチマークは、現実的なWebインタラクションシナリオをエンドツーエンドでシミュレートし、既存のWebナビゲーションエージェントに適応する。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z) - Safe Explicable Policy Search [3.3869539907606603]
本稿では、安全リスクを最小化しつつ、説明可能な行動生成のための学習アプローチを提供することを目的とした、安全な説明可能なポリシー探索(SEPS)を提案する。
我々は,SEPSを制約付き最適化問題として定式化し,エージェントは安全性に制約のある説明可能性スコアを最大化することを目的とする。
安全ジャム環境におけるSEPSを評価し, エージェントの安全要件に適合し, 効率のよい説明可能な動作を学習できることを実証するために, 物理ロボット実験を用いて実験を行った。
論文 参考訳(メタデータ) (2025-03-10T20:52:41Z) - STAMP: Scalable Task And Model-agnostic Collaborative Perception [24.890993164334766]
STAMPは、異種エージェントのためのタスクおよびモデルに依存しない協調認識パイプラインである。
計算オーバーヘッドを最小限に抑え、スケーラビリティを高め、モデルのセキュリティを維持する。
第一種フレームワークとしてSTAMPは,スケーラブルでセキュアなモビリティシステムの研究を,レベル5の自律性に向けて進めることを目指している。
論文 参考訳(メタデータ) (2025-01-24T16:27:28Z) - IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems [2.2810745411557316]
IntellAgentは、対話型AIシステムを評価するためのスケーラブルでオープンソースのフレームワークである。
IntellAgentは、ポリシー駆動グラフモデリング、リアルイベント生成、対話型ユーザエージェントシミュレーションを組み合わせることで、合成ベンチマークの作成を自動化する。
我々の研究は、IntellAgentが、研究と展開の橋渡しの課題に対処することで、会話AIを前進させるための効果的なフレームワークであることを示した。
論文 参考訳(メタデータ) (2025-01-19T14:58:35Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - LAMBO: Large AI Model Empowered Edge Intelligence [71.56135386994119]
次世代エッジインテリジェンスは、オフロード技術を通じて様々なアプリケーションに恩恵をもたらすことが期待されている。
従来のオフロードアーキテクチャは、不均一な制約、部分的な認識、不確実な一般化、トラクタビリティの欠如など、いくつかの問題に直面している。
我々は、これらの問題を解決するための10億以上のパラメータを持つLarge AI Model-Based Offloading (LAMBO)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:25:42Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。