Fugu-MT 論文翻訳(概要): Enforcing Temporal Constraints for LLM Agents

論文の概要: Enforcing Temporal Constraints for LLM Agents

arxiv url: http://arxiv.org/abs/2512.23738v1
Date: Thu, 25 Dec 2025 06:12:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-01 23:27:28.117362
Title: Enforcing Temporal Constraints for LLM Agents
Title（参考訳）: LLM剤の時間的制約の強化
Authors: Adharsh Kamath, Sishen Zhang, Calvin Xu, Shubham Ugare, Gagandeep Singh, Sasa Misailovic,
Abstract要約: 既存のガードレールは不正確な自然言語命令やポストホック監視に依存している。本稿では,LDMエージェントが正式な時間的安全特性に準拠することを保証するランタイム保証を提供する新しいフレームワークであるAgent-Cを提案する。我々は,Agent-Cを,小売顧客サービスと航空券予約システムという,現実世界の2つのアプリケーションで評価する。
参考スコア（独自算出の注目度）: 10.694240979134326
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLM-based agents are deployed in safety-critical applications, yet current guardrail systems fail to prevent violations of temporal safety policies, requirements that govern the ordering and sequencing of agent actions. For instance, agents may access sensitive data before authenticating users or process refunds to unauthorized payment methods, violations that require reasoning about sequences of action rather than an individual action. Existing guardrails rely on imprecise natural language instructions or post-hoc monitoring, and provide no formal guarantees that agents will satisfy temporal constraints. We present Agent-C, a novel framework that provides run-time guarantees ensuring LLM agents adhere to formal temporal safety properties. Agent-C introduces a domain-specific language for expressing temporal properties (e.g., authenticate before accessing data), translates specifications to first-order logic, and uses SMT solving to detect non-compliant agent actions during token generation. When the LLM attempts to generate a non-compliant tool call, Agent-C leverages constrained generation techniques to ensure that every action generated by the LLM complies with the specification, and to generate a compliant alternative to a non-compliant agent action. We evaluate Agent-C across two real-world applications: retail customer service and airline ticket reservation system, and multiple language models (open and closed-source). Our results demonstrate that Agent-C achieves perfect safety (100% conformance, 0% harm), while improving task utility compared to state-of-the-art guardrails and unrestricted agents. On SoTA closed-source models, Agent-C improves conformance (77.4% to 100% for Claude Sonnet 4.5 and 83.7% to 100% for GPT-5), while simultaneously increasing utility (71.8% to 75.2% and 66.1% to 70.6%, respectively), representing a new SoTA frontier for reliable agentic reasoning.
Abstract（参考訳）: LLMベースのエージェントは、安全クリティカルなアプリケーションにデプロイされるが、現在のガードレールシステムは、エージェントアクションの順序付けとシーケンシングを管理する要件である時間的安全ポリシーの違反を防ぐことができない。例えば、エージェントはユーザーを認証する前に機密データにアクセスしたり、未承認の支払い方法に返金する。既存のガードレールは不正確な自然言語命令やポストホック監視に依存しており、エージェントが時間的制約を満たすという正式な保証は提供していない。本稿では,LDMエージェントが正式な時間的安全特性に準拠することを保証するランタイム保証を提供する新しいフレームワークであるAgent-Cを提案する。 Agent-Cは、時間特性(例えば、データにアクセスする前に認証する)を表現するためのドメイン固有言語を導入し、仕様を一階述語論理に変換し、トークン生成中に非準拠のエージェントアクションを検出するためにSMTソルバを使用する。 LLMが非準拠のツールコールを生成しようとすると、Agent-Cは制約付き生成技術を活用して、LLMによって生成されたすべてのアクションが仕様に準拠することを保証し、非準拠のエージェントアクションに準拠する代替手段を生成する。本稿では,小売顧客サービスと航空券予約システム,複数言語モデル(オープンソースおよびクローズドソース)の2つの実世界のアプリケーションでAgent-Cを評価した。以上の結果から,Agent-Cは完全安全(100%適合,0%有害)を達成できる一方で,最先端のガードレールや非制限エージェントと比較して作業性の向上が期待できる。 SoTAのクローズドソースモデルでは、Agent-Cは適合性(Clude Sonnet 4.5では77.4%から100%、GPT-5では83.7%から100%)を改善し、同時に実用性(71.8%から75.2%、66.1%から70.6%)を高め、信頼性の高いエージェント推論のための新しいSoTAフロンティアを代表している。

関連論文リスト

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。 LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文参考訳（メタデータ） (2026-01-15T07:54:32Z)
Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。 LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文参考訳（メタデータ） (2026-01-12T21:31:38Z)
Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文参考訳（メタデータ） (2025-12-04T14:47:05Z)
VeriGuard: Enhancing LLM Agent Safety via Verified Code Generation [40.594947933580464]
医療などのセンシティブなドメインに自律的なAIエージェントを配置することは、安全性、セキュリティ、プライバシに重大なリスクをもたらす。 LLMをベースとしたエージェントに対して、正式な安全保証を提供する新しいフレームワークであるVeriGuardを紹介する。
論文参考訳（メタデータ） (2025-10-03T04:11:43Z)
PSG-Agent: Personality-Aware Safety Guardrail for LLM-based Agents [60.23552141928126]
PSG-AgentはLLMベースのエージェントのためのパーソナライズされた動的システムである。まずPSG-Agentは、安定した特性のために相互作用履歴をマイニングすることでパーソナライズされたガードレールを作成する。第二に、PSG-Agentは特別なガードでエージェントパイプラインを横断する継続的監視を実装している。
論文参考訳（メタデータ） (2025-09-28T03:31:59Z)
ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning [7.481324060587101]
ShieldAgentは、他の保護されたエージェントの行動軌跡に対する明確な安全政策コンプライアンスを実施するために設計されたガードレールエージェントである。保護剤の作用軌跡を考慮し、ShieldAgentは関連するルール回路を取得し、シールド計画を生成する。 ShieldAgentはAPIクエリを64.7%削減し、推論時間を58.2%削減した。
論文参考訳（メタデータ） (2025-03-26T17:58:40Z)
AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents [8.290987399121343]
LLMエージェントのランタイム制約を指定・強制するための軽量言語であるAgentSpecを提案する。 AgentSpecでは、トリガー、述語、執行機構を含む構造化ルールを定義する。コード実行、エンボディエージェント、自律運転など、複数のドメインにまたがるAgentSpecを実装しています。
論文参考訳（メタデータ） (2025-03-24T13:31:48Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。 GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文参考訳（メタデータ） (2024-06-13T14:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。