論文の概要: GAVEL: Towards rule-based safety through activation monitoring
- arxiv url: http://arxiv.org/abs/2601.19768v2
- Date: Thu, 29 Jan 2026 08:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 14:13:19.956615
- Title: GAVEL: Towards rule-based safety through activation monitoring
- Title(参考訳): GAVEL:アクティベーションモニタリングによるルールベースの安全を目指して
- Authors: Shir Rozenfeld, Rahul Pankajakshan, Itay Zloczower, Eyal Lenga, Gilad Gressel, Yisroel Mirsky,
- Abstract要約: 大規模言語モデル(LLM)は、有害な行動を検出し予防するために、アクティベーションベースの監視とペアになってきています。
既存のアクティベーション安全性アプローチ、幅広い誤用データセットのトレーニング、精度の低下、柔軟性の制限、解釈可能性の欠如。
本稿では,サイバーセキュリティにおけるルール共有プラクティスにインスパイアされた,ルールベースのアクティベーション安全という新たなパラダイムを紹介する。
- 参考スコア(独自算出の注目度): 2.337566423505956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly paired with activation-based monitoring to detect and prevent harmful behaviors that may not be apparent at the surface-text level. However, existing activation safety approaches, trained on broad misuse datasets, struggle with poor precision, limited flexibility, and lack of interpretability. This paper introduces a new paradigm: rule-based activation safety, inspired by rule-sharing practices in cybersecurity. We propose modeling activations as cognitive elements (CEs), fine-grained, interpretable factors such as ''making a threat'' and ''payment processing'', that can be composed to capture nuanced, domain-specific behaviors with higher precision. Building on this representation, we present a practical framework that defines predicate rules over CEs and detects violations in real time. This enables practitioners to configure and update safeguards without retraining models or detectors, while supporting transparency and auditability. Our results show that compositional rule-based activation safety improves precision, supports domain customization, and lays the groundwork for scalable, interpretable, and auditable AI governance. We will release GAVEL as an open-source framework and provide an accompanying automated rule creation tool.
- Abstract(参考訳): 大型言語モデル(LLM)は、アクティベーションベースのモニタリングとペアになって、表面テキストレベルでは見られない有害な振る舞いを検出し、防止している。
しかし、既存のアクティベーション安全性アプローチは、幅広い誤用データセットに基づいてトレーニングされ、精度の低下、柔軟性の制限、解釈可能性の欠如に悩まされている。
本稿では,サイバーセキュリティにおけるルール共有プラクティスにインスパイアされた,ルールベースのアクティベーション安全という新たなパラダイムを紹介する。
本稿では,認知的要素(CE)としてのアクティベーションをモデル化し,より高精度なドメイン固有の振る舞いを捉えるために構成できる「脅威を犯す」や「支払い処理」といった細粒度で解釈可能な要素を提案する。
この表現に基づいて,CE上の述語規則を定義し,違反をリアルタイムで検出する実践的枠組みを提案する。
これにより、モデルや検出器を再トレーニングすることなく、安全ガードの設定と更新が可能になり、透明性と監査性をサポートします。
この結果から,構成規則に基づくアクティベーション安全性は精度を向上させ,ドメインのカスタマイズをサポートし,スケーラブルで解釈可能な,監査可能なAIガバナンスの基盤となることが示唆された。
オープンソースフレームワークとしてGAVELをリリースし、関連する自動ルール作成ツールを提供します。
関連論文リスト
- From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Annotating the Chain-of-Thought: A Behavior-Labeled Dataset for AI Safety [0.0]
本稿では,安全行動のアクティベーションに基づくモニタリングを可能にする文レベルのラベル付きデータセットを提案する。
本データセットは,安全性に関する懸念やユーザ意図に対する憶測などの安全行動の文レベルのアノテーションを用いた推論シーケンスを含む。
モデルアクティベーションにおける安全行動の検出とステアリングを行う表現を抽出することで,データセットの有用性を実証する。
論文 参考訳(メタデータ) (2025-10-20T23:12:12Z) - Cognition-of-Thought Elicits Social-Aligned Reasoning in Large Language Models [17.381122321801556]
大きな言語モデル(LLM)は複雑な推論において優れているが、それでも有害な振る舞いを示すことができる。
本稿では,認知的自己監視ループにLCMを組み込んだ新しい復号時間フレームワークCooTを紹介する。
論文 参考訳(メタデータ) (2025-09-27T18:16:57Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Graphormer-Guided Task Planning: Beyond Static Rules with LLM Safety Perception [4.424170214926035]
本稿では,大規模言語モデルと構造化安全モデリングを組み合わせたリスク対応タスク計画フレームワークを提案する。
提案手法は,空間的および文脈的危険因子を抽出し,動的セマンティック安全グラフを構築する。
既定の安全性制約に依存する既存の手法とは異なり、我々のフレームワークはコンテキスト認識型リスク認識モジュールを導入している。
論文 参考訳(メタデータ) (2025-03-10T02:43:54Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。