論文の概要: Evaluating LLM Agent Adherence to Hierarchical Safety Principles: A Lightweight Benchmark for Probing Foundational Controllability Components
- arxiv url: http://arxiv.org/abs/2506.02357v2
- Date: Thu, 10 Jul 2025 15:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 14:32:08.154787
- Title: Evaluating LLM Agent Adherence to Hierarchical Safety Principles: A Lightweight Benchmark for Probing Foundational Controllability Components
- Title(参考訳): LLMエージェントの階層的安全原則への整合性評価:基礎制御性成分の探索のための軽量ベンチマーク
- Authors: Ram Potham,
- Abstract要約: 本稿では,エージェントが高レベルの安全原則を維持できる能力を評価するための,軽量で解釈可能なベンチマークを提案する。
評価の結果,(1)コンプライアンスソリューションが存在する場合でも,安全性の制約がタスクパフォーマンスを低下させる定量的な「コンプライアンスコスト」と,(2)高いコンプライアンスが選択よりもタスク能力の低下を隠蔽する「コンプライアンスのイリュージョン」の2つが明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Credible safety plans for advanced AI development require methods to verify agent behavior and detect potential control deficiencies early. A fundamental aspect is ensuring agents adhere to safety-critical principles, especially when these conflict with operational goals. This paper introduces a lightweight, interpretable benchmark to evaluate an LLM agent's ability to uphold a high-level safety principle when faced with conflicting task instructions. Our evaluation of six LLMs reveals two primary findings: (1) a quantifiable "cost of compliance" where safety constraints degrade task performance even when compliant solutions exist, and (2) an "illusion of compliance" where high adherence often masks task incompetence rather than principled choice. These findings provide initial evidence that while LLMs can be influenced by hierarchical directives, current approaches lack the consistency required for reliable safety governance.
- Abstract(参考訳): 高度なAI開発のための信頼性の高い安全計画は、エージェントの振る舞いを検証し、早期に制御の欠陥を検出する方法を必要とする。
基本的側面は、特にこれらの運用目標と矛盾する場合において、エージェントが安全クリティカルな原則に従うことを保証することである。
本稿では,LLMエージェントがタスク命令の矛盾に直面した場合に,高レベルの安全原則を維持可能であることを評価するための,軽量で解釈可能なベンチマークを提案する。
6つのLCMを評価した結果,(1)コンプライアンスソリューションが存在する場合でも,安全性の制約がタスク性能を低下させる定量的な「コンプライアンスコスト」と,(2)高いコンプライアンスが,原則的選択よりもタスク能力の低下を隠蔽する「コンプライアンスのイリュージョン」の2つが明らかになった。
これらの知見は、LLMは階層的な指示の影響を受け得るが、現在のアプローチは信頼性の高い安全管理に必要な一貫性を欠いているという最初の証拠である。
関連論文リスト
- LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - Inherent and emergent liability issues in LLM-based agentic systems: a principal-agent perspective [0.0]
大規模言語モデル(LLM)を利用したエージェントシステムは、徐々に複雑になり、能力も向上している。
エージェントの増加とデプロイメント環境の拡大は,効果的なガバナンスポリシや監視,コントロールプロトコルに対する関心の高まりを招いている。
我々は, LLMエージェントとその拡張システムの委譲利用から生じる潜在的な責任問題について, 主エージェントの観点から分析する。
論文 参考訳(メタデータ) (2025-04-04T08:10:02Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - Value Functions are Control Barrier Functions: Verification of Safe
Policies using Control Theory [46.85103495283037]
本稿では,制御理論から学習値関数への検証手法の適用方法を提案する。
我々は値関数と制御障壁関数の間の関係を確立する原定理を定式化する。
我々の研究は、RLベースの制御システムの汎用的でスケーラブルで検証可能な設計のための公式なフレームワークに向けた重要な一歩である。
論文 参考訳(メタデータ) (2023-06-06T21:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。