論文の概要: Evaluating Implicit Regulatory Compliance in LLM Tool Invocation via Logic-Guided Synthesis
- arxiv url: http://arxiv.org/abs/2601.08196v1
- Date: Tue, 13 Jan 2026 03:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.054072
- Title: Evaluating Implicit Regulatory Compliance in LLM Tool Invocation via Logic-Guided Synthesis
- Title(参考訳): 論理誘導型合成によるLLMツール実行における帰納的コンプライアンスの評価
- Authors: Da Song, Yuheng Huang, Boqi Chen, Tianshuo Cong, Randy Goebel, Lei Ma, Foutse Khomh,
- Abstract要約: 我々は,非構造化規則を線形時間論理託に変換するフレームワークであるLogiSafetyGenを導入し,論理誘導ファジングを用いて,有効かつ安全クリティカルなトレースを合成する。
このフレームワーク上に構築したLogiSafetyBenchは,LLMが機能目標と遅延コンプライアンスルールの両方を満たすPythonプログラムを生成するために必要な,240の人間認証タスクからなるベンチマークである。
13種類のSOTA (State-of-the-art) LLMの評価により、より優れた機能的正当性を達成したにもかかわらず、安全よりもタスク完了を優先し、非準拠な振る舞いをもたらすことが判明した。
- 参考スコア(独自算出の注目度): 18.51135049856393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of large language models (LLMs) into autonomous agents has enabled complex tool use, yet in high-stakes domains, these systems must strictly adhere to regulatory standards beyond simple functional correctness. However, existing benchmarks often overlook implicit regulatory compliance, thus failing to evaluate whether LLMs can autonomously enforce mandatory safety constraints. To fill this gap, we introduce LogiSafetyGen, a framework that converts unstructured regulations into Linear Temporal Logic oracles and employs logic-guided fuzzing to synthesize valid, safety-critical traces. Building on this framework, we construct LogiSafetyBench, a benchmark comprising 240 human-verified tasks that require LLMs to generate Python programs that satisfy both functional objectives and latent compliance rules. Evaluations of 13 state-of-the-art (SOTA) LLMs reveal that larger models, despite achieving better functional correctness, frequently prioritize task completion over safety, which results in non-compliant behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)を自律エージェントに統合することで、複雑なツールの使用が可能になったが、ハイテイクなドメインでは、これらのシステムは単純な機能的正当性を超えた規制基準に厳格に従わなければならない。
しかしながら、既存のベンチマークは暗黙の規制コンプライアンスを見落としていることが多く、LCMが自律的に強制的な安全制約を強制できるかどうかを評価できない。
このギャップを埋めるために,非構造化規則を線形時間論理託に変換するフレームワークであるLogiSafetyGenを導入する。
このフレームワーク上に構築したLogiSafetyBenchは,LLMが機能目標と遅延コンプライアンスルールの両方を満たすPythonプログラムを生成するために必要な,240の人間認証タスクからなるベンチマークである。
13種類のSOTA (State-of-the-art) LLMの評価により、より優れた機能的正当性を達成したにもかかわらず、安全よりもタスク完了を優先し、非準拠な振る舞いをもたらすことが判明した。
関連論文リスト
- Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Reasoning over Precedents Alongside Statutes: Case-Augmented Deliberative Alignment for LLM Safety [59.01189713115365]
本研究は, 広範囲な安全コードを明確に指定することによる影響を, 図示的事例を通して示すことよりも評価する。
明示的なコードを参照することで、無害性が向上し、系統的に有用性が低下することがわかった。
自己生成型安全推論チェーンの強化学習を利用したLLMのケース拡張型検討アライメント手法であるCADAを提案する。
論文 参考訳(メタデータ) (2026-01-12T21:08:46Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models [3.710103086278309]
大規模言語モデル(LLM)は通常、トレーニング後の段階で安全のために整列される。
ユーザに対してリスクをもたらす可能性のある,不適切なアウトプットを生成することも可能だ。
この課題は、モデル入力と出力の両方にわたって動作する堅牢なセーフガードの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2025-12-05T00:43:55Z) - SENTINEL: A Multi-Level Formal Framework for Safety Evaluation of LLM-based Embodied Agents [25.567593463613388]
本稿では,Large Language Model(LLM)ベースのエンボディエージェントの物理的安全性を公式に評価する最初のフレームワークであるSentinelを紹介する。
我々は、VirtualHomeとALFREDにSentinelを適用し、多様な安全性要件に対して複数のLDMベースのエンボディエージェントを正式に評価する。
論文 参考訳(メタデータ) (2025-10-14T20:53:51Z) - Safety Compliance: Rethinking LLM Safety Reasoning through the Lens of Compliance [49.50518009960314]
既存の安全手法はアドホックな分類に依存しており、厳格で体系的な保護を欠いている。
我々は,法規を組み込んだ現実的なLLM安全シナリオを生成することで,安全コンプライアンスのための新しいベンチマークを開発する。
本実験は,新しいベンチマークにおいて,コンプライアンス・リゾネータが優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-09-26T12:11:29Z) - Evaluating LLM Agent Adherence to Hierarchical Safety Principles: A Lightweight Benchmark for Probing Foundational Controllability Components [0.0]
本稿では,エージェントが高レベルの安全原則を維持できる能力を評価するための,軽量で解釈可能なベンチマークを提案する。
評価の結果,(1)コンプライアンスソリューションが存在する場合でも,安全性の制約がタスクパフォーマンスを低下させる定量的な「コンプライアンスコスト」と,(2)高いコンプライアンスが選択よりもタスク能力の低下を隠蔽する「コンプライアンスのイリュージョン」の2つが明らかになった。
論文 参考訳(メタデータ) (2025-06-03T01:16:34Z) - SagaLLM: Context Management, Validation, and Transaction Guarantees for Multi-Agent LLM Planning [2.1331883629523634]
SagaLLMは、現在のLLMベースの計画システムの4つの基本的な制限に対処するために設計された構造化マルチエージェントアーキテクチャである。
Sagaトランザクションパターンを永続メモリ、自動補償、独立バリデーションエージェントに統合することで、このギャップを埋める。
不確実性の下では、一貫性、検証精度、適応調整において大幅な改善が達成される。
論文 参考訳(メタデータ) (2025-03-15T01:43:03Z) - Graphormer-Guided Task Planning: Beyond Static Rules with LLM Safety Perception [4.424170214926035]
本稿では,大規模言語モデルと構造化安全モデリングを組み合わせたリスク対応タスク計画フレームワークを提案する。
提案手法は,空間的および文脈的危険因子を抽出し,動的セマンティック安全グラフを構築する。
既定の安全性制約に依存する既存の手法とは異なり、我々のフレームワークはコンテキスト認識型リスク認識モジュールを導入している。
論文 参考訳(メタデータ) (2025-03-10T02:43:54Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。