論文の概要: Institutional AI: A Governance Framework for Distributional AGI Safety
- arxiv url: http://arxiv.org/abs/2601.10599v2
- Date: Mon, 19 Jan 2026 14:18:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 14:05:45.200478
- Title: Institutional AI: A Governance Framework for Distributional AGI Safety
- Title(参考訳): Institutional AI: 分散AGI安全性のためのガバナンスフレームワーク
- Authors: Federico Pierucci, Marcello Galisai, Marcantonio Syrnikov Bracale, Matteo Prandi, Piercosma Bisconti, Francesco Giarrusso, Olga Sorokoletova, Vincenzo Suriani, Daniele Nardi,
- Abstract要約: AIモデルのコア特性から生じる3つの構造的問題を同定する。
ソリューションはInstitutional AIであり、AIエージェント集団の効果的なガバナンスの問題としてアライメントを扱うシステムレベルのアプローチである。
- 参考スコア(独自算出の注目度): 1.3763052684269788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLM-based systems increasingly operate as agents embedded within human social and technical systems, alignment can no longer be treated as a property of an isolated model, but must be understood in relation to the environments in which these agents act. Even the most sophisticated methods of alignment, such as Reinforcement Learning through Human Feedback (RHLF) or through AI Feedback (RLAIF) cannot ensure control once internal goal structures diverge from developer intent. We identify three structural problems that emerge from core properties of AI models: (1) behavioral goal-independence, where models develop internal objectives and misgeneralize goals; (2) instrumental override of natural-language constraints, where models regard safety principles as non-binding while pursuing latent objectives, leveraging deception and manipulation; and (3) agentic alignment drift, where individually aligned agents converge to collusive equilibria through interaction dynamics invisible to single-agent audits. The solution this paper advances is Institutional AI: a system-level approach that treats alignment as a question of effective governance of AI agent collectives. We argue for a governance-graph that details how to constrain agents via runtime monitoring, incentive shaping through prizes and sanctions, explicit norms and enforcement roles. This institutional turn reframes safety from software engineering to a mechanism design problem, where the primary goal of alignment is shifting the payoff landscape of AI agent collectives.
- Abstract(参考訳): LLMベースのシステムは、人間の社会的および技術的システムに埋め込まれたエージェントとしてますます機能するため、アライメントはもはや孤立したモデルの特性として扱われることはできないが、これらのエージェントが作用する環境に関して理解されなければならない。
Reinforcement Learning through Human Feedback (RHLF) や AI Feedback (RLAIF) のような、最も洗練されたアライメントの方法でさえ、内部の目標構造が開発者の意図から逸脱すれば、制御を保証できない。
我々は,AIモデルの中核的な性質から生じる3つの構造的問題を特定する。(1)モデルが内部目標を発達し,目標を一般化する行動的目標独立性,(2)モデルが潜在目標を追求しながら安全原則を非拘束的とみなす自然言語制約の具体的オーバーライド,(3)エージェントアライメントドリフト,(3)エージェントアライメントドリフト,(3)エージェントアライメントドリフト。
この論文は、AIエージェント集団の効果的なガバナンスの問題としてアライメントを扱うシステムレベルのアプローチである、Institutional AIというソリューションを先導する。
我々は、ランタイム監視、賞品や制裁によるインセンティブ形成、明示的な規範、執行の役割を通じてエージェントを拘束する方法を詳細に説明したガバナンスグラフを議論する。
この制度的な転換は、ソフトウェアエンジニアリングからメカニズム設計の問題に、AIエージェント集団のペイオフ環境をシフトさせることが、アライメントの第一の目標である。
関連論文リスト
- A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [53.37728204835912]
既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。
近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。
この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-08-10T16:07:32Z) - Toward a Theory of Agents as Tool-Use Decision-Makers [89.26889709510242]
真の自律性は、エージェントが、彼らが知っていること、必要なこと、そしてその知識を効率的に獲得する方法を統治する、一貫性のある疫学の枠組みに根ざす必要がある、と我々は主張する。
本研究では,内的推論と外的行動を等価な疫学ツールとして扱う統一理論を提案し,エージェントが内観と相互作用を体系的に調整することを可能にする。
この視点は、エージェントの設計を単なるアクションエグゼクタから知識駆動インテリジェンスシステムにシフトさせ、適応的で効率的でゴール指向の行動が可能な基礎エージェントを構築するための原則化された道筋を提供する。
論文 参考訳(メタデータ) (2025-06-01T07:52:16Z) - Internet of Agents: Fundamentals, Applications, and Challenges [68.9543153075464]
異種エージェント間のシームレスな相互接続、動的発見、協調的なオーケストレーションを可能にする基盤となるフレームワークとして、エージェントのインターネット(IoA)を紹介した。
我々は,機能通知と発見,適応通信プロトコル,動的タスクマッチング,コンセンサスとコンフリクト解決機構,インセンティブモデルなど,IoAの重要な運用イネーラを分析した。
論文 参考訳(メタデータ) (2025-05-12T02:04:37Z) - Threat Modeling for AI: The Case for an Asset-Centric Approach [0.23408308015481666]
AIシステムは、自律的にコードを実行し、外部システムと対話し、人間の監視なしに運用することが可能になった。
AIシステムが自律的にコードを実行し、外部システムと対話し、人間の監視なしに運用できるようになったことで、従来のセキュリティアプローチは不足する。
本稿では、脅威モデリングAIシステムのための資産中心の方法論を紹介する。
論文 参考訳(メタデータ) (2025-05-08T18:57:08Z) - Human-AI Governance (HAIG): A Trust-Utility Approach [0.0]
本稿では,人間とAIの関係が進化する中で,信頼のダイナミクスを分析するためのHAIGフレームワークを紹介する。
我々の分析は、自己監督、推論権限、分散意思決定の技術的進歩が、不均一な信頼の進化をいかに引き起こすかを明らかにする。
論文 参考訳(メタデータ) (2025-05-03T01:57:08Z) - Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。
我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文 参考訳(メタデータ) (2025-04-11T15:41:21Z) - Media and responsible AI governance: a game-theoretic and LLM analysis [61.132523071109354]
本稿では,信頼できるAIシステムを育成する上での,AI開発者,規制当局,ユーザ,メディア間の相互作用について検討する。
進化的ゲーム理論と大言語モデル(LLM)を用いて、異なる規制体制下でこれらのアクター間の戦略的相互作用をモデル化する。
論文 参考訳(メタデータ) (2025-03-12T21:39:38Z) - Position: Emergent Machina Sapiens Urge Rethinking Multi-Agent Paradigms [8.177915265718703]
AIエージェントは、目的を動的に調整する権限を持つべきだ、と私たちは主張する。
私たちは、これらのマルチエージェントAIシステムの創発的で、自己組織化され、コンテキストに配慮した性質へのシフトを呼びかけます。
論文 参考訳(メタデータ) (2025-02-05T22:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。