論文の概要: Position: AI Safety Requires Effective Controllability
- arxiv url: http://arxiv.org/abs/2605.27117v1
- Date: Tue, 26 May 2026 14:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.27905
- Title: Position: AI Safety Requires Effective Controllability
- Title(参考訳): ポジション:AIの安全性は効果的な制御可能性を必要とする
- Authors: Yige Li, Yunhao Feng, Jun Sun,
- Abstract要約: 我々は、AIの安全性は第一級の目的として制御性を必要とすると論じている。
OpenClawベースのエージェントによる実験では、現在のアライメントとガードレール機構がリスクを低減しているが、永続的で権威的で強制可能なランタイムコントロールの提供に失敗することが多い。
- 参考スコア(独自算出の注目度): 7.789894640525689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI safety is still largely framed as alignment: training models to follow human preferences, safety policies, and normative constraints. That framing has improved the behavior of modern language models, but aligned behavior does not by itself guarantee that a deployed agent can be stopped, overridden, or constrained once it operates in open-ended, interactive, and tool-using environments. A system may be safe in expectation and still fail to yield to explicit runtime authority under conflicting instructions, long-horizon execution, adversarial inputs, or risky tool use. This position paper argues that AI safety therefore requires controllability as a first-class objective. We define \emph{controllability} as the ability of an AI system to remain reliably interruptible, overridable, redirectable, and constrainable by explicit control signals at runtime while preserving ordinary utility when such signals are absent. To study this gap, we introduce \controlbench{}, a benchmark for evaluating controllability failures in high-risk agentic scenarios. Experiments with OpenClaw-based agents show that current alignment and guardrail mechanisms reduce risk, but often fail to provide persistent, authoritative, and enforceable runtime control. We therefore propose a control-centric architectural framework that highlights explicit control planes, runtime intervention pathways, persistent control states, and auditable decision interfaces as key design principles for future controllable AI systems.
- Abstract(参考訳): AIの安全性は、人間の好みに従うためのトレーニングモデル、安全ポリシー、規範的制約など、いまだにアライメント(アライメント)として構成されている。
このフレーミングは現代の言語モデルの振舞いを改善していますが、アライメントされた振舞いは、オープンエンド、インタラクティブ、ツール使用環境で運用された場合、デプロイされたエージェントを停止、オーバーライド、あるいは制限することをそれ自体が保証していません。
システムは期待通りに安全であり、矛盾する命令、長い水平実行、敵の入力、危険なツールの使用の下で、明示的な実行権限を得られない。
このポジションペーパーでは、AIの安全性は第一級の目的として制御性を必要とすると論じている。
我々は、AIシステムが実行時に明示的な制御信号によって確実に中断可能で、オーバーライド可能で、リダイレクト可能で、制約可能でありながら、そのような信号が存在しない場合に通常のユーティリティを保存する能力として、‘emph{controllability’を定義する。
このギャップを研究するために、リスクの高いエージェントシナリオにおける制御可能性障害を評価するためのベンチマークである 'controlbench{} を導入する。
OpenClawベースのエージェントによる実験では、現在のアライメントとガードレール機構がリスクを低減しているが、永続的で権威的で強制可能なランタイムコントロールの提供に失敗することが多い。
そこで我々は,将来の制御可能なAIシステムにおいて重要な設計原則として,明示的な制御プレーン,実行時の介入経路,永続的な制御状態,監査可能な決定インターフェースなどを強調する,制御中心のアーキテクチャフレームワークを提案する。
関連論文リスト
- CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation [68.53387633351484]
有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
このパラダイムを厳格に評価するために、ステップレベルのハーモラベルを持つモバイル安全違反の新しいベンチマークであるPhone-Harmを紹介する。
論文 参考訳(メタデータ) (2026-04-10T09:41:21Z) - From Governance Norms to Enforceable Controls: A Layered Translation Method for Runtime Guardrails in Agentic AI [0.0]
本稿では,標準由来のガバナンス目標を4つのコントロール層に結合するレイヤ変換手法を提案する。
ガバナンスの目的、技術的なコントロール、ランタイムのガードレール、保証の証拠を区別します。
標準は、アーキテクチャ、ランタイムポリシー、ヒューマンエスカレーション、監査を横断するコントロール配置をガイドしなければなりません。
論文 参考訳(メタデータ) (2026-04-06T22:49:28Z) - The Alignment Flywheel: A Governance-Centric Hybrid MAS for Architecture-Agnostic Safety [5.399984738447277]
本稿では、アライメントフライホイールをガバナンス中心のハイブリッドMASアーキテクチャとして定式化する。
執行層は実行時に明確なリスクポリシーを適用し、ガバナンスMASは監査、不確実性駆動による検証、バージョン管理による改善を通じてOracleを監督します。
アーキテクチャはProposerとSafety Oracleの両方に関して実装に依存せず、実行時ゲーティング、監査、署名されたパッチ、ステージングロールアウトに必要な役割、アーティファクト、プロトコル、リリースセマンティクスを指定する。
論文 参考訳(メタデータ) (2026-02-28T00:48:06Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - GAVEL: Towards rule-based safety through activation monitoring [2.337566423505956]
大規模言語モデル(LLM)は、有害な行動を検出し予防するために、アクティベーションベースの監視とペアになってきています。
既存のアクティベーション安全性アプローチ、幅広い誤用データセットのトレーニング、精度の低下、柔軟性の制限、解釈可能性の欠如。
本稿では,サイバーセキュリティにおけるルール共有プラクティスにインスパイアされた,ルールベースのアクティベーション安全という新たなパラダイムを紹介する。
論文 参考訳(メタデータ) (2026-01-27T16:31:39Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - Governable AI: Provable Safety Under Extreme Threat Models [31.36879992618843]
我々は、従来の内部制約から外部に強制された構造コンプライアンスに移行するGAI(Governable AI)フレームワークを提案する。
GAIフレームワークは、シンプルで信頼性が高く、完全に決定論的で、強力で、柔軟性があり、汎用的なルール執行モジュール(REM)、ガバナンスルール、AIによる妥協やサブバージョンに対するエンドツーエンドの保護を提供する、統制可能なセキュアなスーパープラットフォーム(GSSP)で構成されている。
論文 参考訳(メタデータ) (2025-08-28T04:22:59Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Designing Control Barrier Function via Probabilistic Enumeration for Safe Reinforcement Learning Navigation [55.02966123945644]
本稿では,ニューラルネットワーク検証技術を利用して制御障壁関数(CBF)とポリシー修正機構の設計を行う階層型制御フレームワークを提案する。
提案手法は,安全なCBFベースの制御層を構築するために使用される,安全でない操作領域を特定するための確率的列挙に依存する。
これらの実験は、効率的なナビゲーション動作を維持しながら、安全でない動作を補正する提案手法の能力を実証するものである。
論文 参考訳(メタデータ) (2025-04-30T13:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。