論文の概要: Evaluating LLM Agent Adherence to Hierarchical Safety Principles: A Lightweight Benchmark for Probing Foundational Controllability Components
- arxiv url: http://arxiv.org/abs/2506.02357v1
- Date: Tue, 03 Jun 2025 01:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.191025
- Title: Evaluating LLM Agent Adherence to Hierarchical Safety Principles: A Lightweight Benchmark for Probing Foundational Controllability Components
- Title(参考訳): LLMエージェントの階層的安全原則への整合性評価:基礎制御性成分の探索のための軽量ベンチマーク
- Authors: Ram Potham,
- Abstract要約: 本稿では,エージェントが高レベルの安全原則を守れる能力を評価するためのベンチマーク手法を提案する。
エージェントが不当な指示を確実に優先するかどうかを調査する。
階層的な原則への順守を評価することは、支配可能なAIシステムを構築する能力を理解するための重要な初期段階である、と私たちは主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Credible safety plans for advanced AI development require methods to verify agent behavior and detect potential control deficiencies early. A fundamental aspect is ensuring agents adhere to safety-critical principles, especially when these conflict with operational goals. Failure to prioritize such principles indicates a potential basic control failure. This paper introduces a lightweight, interpretable benchmark methodology using a simple grid world to evaluate an LLM agent's ability to uphold a predefined, high-level safety principle (e.g., "never enter hazardous zones") when faced with conflicting lower-level task instructions. We probe whether the agent reliably prioritizes the inviolable directive, testing a foundational controllability aspect of LLMs. This pilot study demonstrates the methodology's feasibility, offers preliminary insights into agent behavior under principle conflict, and discusses how such benchmarks can contribute empirical evidence for assessing controllability. We argue that evaluating adherence to hierarchical principles is a crucial early step in understanding our capacity to build governable AI systems.
- Abstract(参考訳): 高度なAI開発のための信頼性の高い安全計画は、エージェントの振る舞いを検証し、早期に制御の欠陥を検出する方法を必要とする。
基本的側面は、特にこれらの運用目標と矛盾する場合において、エージェントが安全クリティカルな原則に従うことを保証することである。
このような原則の優先順位付けの失敗は、潜在的に基本的な制御の失敗を示す。
本稿では,LLMエージェントが低レベルタスク命令の矛盾に直面した場合に,事前に定義された高レベル安全原則(例えば「危険領域に入ることはない」など)を維持できる能力を評価するために,単純なグリッド世界を用いた軽量で解釈可能なベンチマーク手法を提案する。
本研究は, LLMの基礎的制御性の観点から, エージェントが不当な指示を確実に優先するか否かを検証する。
このパイロットスタディは、方法論の有効性を実証し、原理的対立の下でのエージェントの振る舞いに関する予備的な洞察を提供し、そのようなベンチマークが制御可能性を評価するための実証的な証拠にどのように貢献できるかを論じる。
階層的な原則への順守を評価することは、支配可能なAIシステムを構築する能力を理解するための重要な初期段階である、と私たちは主張する。
関連論文リスト
- LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - Inherent and emergent liability issues in LLM-based agentic systems: a principal-agent perspective [0.0]
大規模言語モデル(LLM)を利用したエージェントシステムは、徐々に複雑になり、能力も向上している。
エージェントの増加とデプロイメント環境の拡大は,効果的なガバナンスポリシや監視,コントロールプロトコルに対する関心の高まりを招いている。
我々は, LLMエージェントとその拡張システムの委譲利用から生じる潜在的な責任問題について, 主エージェントの観点から分析する。
論文 参考訳(メタデータ) (2025-04-04T08:10:02Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - Value Functions are Control Barrier Functions: Verification of Safe
Policies using Control Theory [46.85103495283037]
本稿では,制御理論から学習値関数への検証手法の適用方法を提案する。
我々は値関数と制御障壁関数の間の関係を確立する原定理を定式化する。
我々の研究は、RLベースの制御システムの汎用的でスケーラブルで検証可能な設計のための公式なフレームワークに向けた重要な一歩である。
論文 参考訳(メタデータ) (2023-06-06T21:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。