論文の概要: The Alignment Flywheel: A Governance-Centric Hybrid MAS for Architecture-Agnostic Safety
- arxiv url: http://arxiv.org/abs/2603.02259v1
- Date: Sat, 28 Feb 2026 00:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.474172
- Title: The Alignment Flywheel: A Governance-Centric Hybrid MAS for Architecture-Agnostic Safety
- Title(参考訳): アライメントフライホイール: アーキテクチャに依存しない安全のためのガバナンス中心のハイブリッドMAS
- Authors: Elias Malomgré, Pieter Simoens,
- Abstract要約: 本稿では、アライメントフライホイールをガバナンス中心のハイブリッドMASアーキテクチャとして定式化する。
執行層は実行時に明確なリスクポリシーを適用し、ガバナンスMASは監査、不確実性駆動による検証、バージョン管理による改善を通じてOracleを監督します。
アーキテクチャはProposerとSafety Oracleの両方に関して実装に依存せず、実行時ゲーティング、監査、署名されたパッチ、ステージングロールアウトに必要な役割、アーティファクト、プロトコル、リリースセマンティクスを指定する。
- 参考スコア(独自算出の注目度): 5.399984738447277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent systems provide mature methodologies for role decomposition, coordination, and normative governance, capabilities that remain essential as increasingly powerful autonomous decision components are embedded within agent-based systems. While learned and generative models substantially expand system capability, their safety behavior is often entangled with training, making it opaque, difficult to audit, and costly to update after deployment. This paper formalizes the Alignment Flywheel as a governance-centric hybrid MAS architecture that decouples decision generation from safety governance. A Proposer, representing any autonomous decision component, generates candidate trajectories, while a Safety Oracle returns raw safety signals through a stable interface. An enforcement layer applies explicit risk policy at runtime, and a governance MAS supervises the Oracle through auditing, uncertainty-driven verification, and versioned refinement. The central engineering principle is patch locality: many newly observed safety failures can be mitigated by updating the governed oracle artifact and its release pipeline rather than retracting or retraining the underlying decision component. The architecture is implementation-agnostic with respect to both the Proposer and the Safety Oracle, and specifies the roles, artifacts, protocols, and release semantics needed for runtime gating, audit intake, signed patching, and staged rollout across distributed deployments. The result is a hybrid MAS engineering framework for integrating highly capable but fallible autonomous systems under explicit, version-controlled, and auditable oversight.
- Abstract(参考訳): マルチエージェントシステムは、役割分解、調整、規範的ガバナンスのための成熟した方法論を提供する。
学習モデルと生成モデルはシステム機能を大幅に拡張するが、安全性の挙動はトレーニングと絡み合っており、不透明で監査が難しく、デプロイ後に更新するのにコストがかかる。
本稿では、安全管理から意思決定を分離するガバナンス中心のハイブリッドMASアーキテクチャとして、アライメントフライホイールを定式化する。
Proposerは任意の自律的な決定コンポーネントを表し、候補の軌道を生成し、Safety Oracleは安定したインターフェースを通じて生の安全信号を返す。
執行層は実行時に明確なリスクポリシーを適用し、ガバナンスMASは監査、不確実性駆動による検証、バージョン管理による改善を通じてOracleを監督します。
多くの新しく観測された安全障害は、根底にある決定コンポーネントの撤回や再トレーニングではなく、管理済みのオラクルアーティファクトとそのリリースパイプラインを更新して軽減することができる。
アーキテクチャはProposerとSafety Oracleの両方に関して実装に依存しないもので、実行時のゲーティング、監査の取り込み、署名されたパッチ、分散デプロイメントの段階的なロールアウトに必要な役割、アーティファクト、プロトコル、リリースセマンティクスを指定する。
その結果、高度に機能するが誤動作可能な自律システムを、明示的でバージョン管理され、監査可能な監視の下で統合するためのハイブリッドMASエンジニアリングフレームワークが実現した。
関連論文リスト
- Beyond Static Alignment: Hierarchical Policy Control for LLM Safety via Risk-Aware Chain-of-Thought [5.251527748612469]
大きな言語モデル(LLM)は、静的で一大の安全ポリシーのため、基本的な安全性のトレードオフに直面します。
我々は、明示的でリスクを意識した推論による動的安全制御のためのフレームワーク、textbfPACT(Prompt-Thought Action via Chain-of-Thought)を提案する。
論文 参考訳(メタデータ) (2026-02-06T12:20:01Z) - PoSafeNet: Safe Learning with Poset-Structured Neural Nets [49.854863600271614]
既存のアプローチは、しばしば複数の安全制約を均一に、または固定された優先命令によって強制し、実現不可能と不安定な振る舞いを引き起こす。
我々は、この設定を擬似構造的安全性として定式化し、安全制約を部分的に順序づけられた集合としてモデル化し、安全構成を政策クラスの構造的特性として扱う。
この定式化に基づいて、逐次クローズドフォームプロジェクションを介して安全性を強制する、識別可能な神経安全層であるPoSafeNetを提案する。
論文 参考訳(メタデータ) (2026-01-29T22:03:32Z) - Assured Autonomy: How Operations Research Powers and Orchestrates Generative AI Systems [18.881800772626427]
生成モデルは、実現可能性、分散シフトに対する堅牢性、ストレステストを提供するメカニズムと組み合わせない限り、運用領域で脆弱である可能性がある、と我々は主張する。
我々は,運用研究に根ざした自律性確保のための概念的枠組みを開発する。
これらの要素は、安全クリティカルで信頼性に敏感な運用領域における自律性を保証するための研究アジェンダを定義する。
論文 参考訳(メタデータ) (2025-12-30T04:24:06Z) - From Linear Risk to Emergent Harm: Complexity as the Missing Core of AI Governance [0.0]
リスクベースのAI規制は、予想される損害に対応する比例制御を約束する。
本稿では、そのようなフレームワークは構造上の理由から失敗することが多いと論じる。
我々は,規制を制御ではなく介入として扱う,AIガバナンスのための複雑性ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-14T14:19:21Z) - Robust Verification of Controllers under State Uncertainty via Hamilton-Jacobi Reachability Analysis [49.31947916567367]
Hamilton-Jacobi (J) リーチビリティ解析は、最悪の不確実性の下で最適なリーチビリティを計算できる一般的な非線形システムに対する一般的な形式的検証ツールである。
この作業は、HJローバーを介してRobust Verification Controllersのための、HJベースのリーチビリティベースのシステム検証フレームワークである。
本稿では,Ro-CoReの安全性検証とコントローラ設計のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-11-18T18:55:20Z) - OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows [77.95511352806261]
VLM(Vision-Language Models)を利用したコンピュータ利用エージェントは、モバイルプラットフォームのようなデジタル環境を操作する上で、人間のような能力を実証している。
我々は,明示的なシステムレベルの違反を検出するための形式検証器と,文脈的リスクとエージェント行動を評価するコンテキスト判断器を組み合わせた,新しいハイブリッド安全検出フレームワークOS-Sentinelを提案する。
論文 参考訳(メタデータ) (2025-10-28T13:22:39Z) - Policy-as-Prompt: Turning AI Governance Rules into Guardrails for AI Agents [0.19336815376402716]
我々は、構造化されていない設計成果物(RD、TDD、コードなど)を検証可能なランタイムガードレールに変換する規制機械学習フレームワークを導入します。
Promptメソッドとしての私たちのポリシーは、これらのドキュメントを読み、ソースリンクされたポリシーツリーを構築するためのリスクコントロールです。
システムは最小限の特権とデータ最小化を強制するために構築される。
論文 参考訳(メタデータ) (2025-09-28T17:36:52Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Runtime Safety Assurance Using Reinforcement Learning [37.61747231296097]
本稿では,安全でない状況を高精度に識別できるメタコントローラを設計することを目的とする。
我々は,RTSAの設計をマルコフ決定プロセス(MDP)と組み合わせ,強化学習(RL)を用いて解決する。
論文 参考訳(メタデータ) (2020-10-20T20:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。