論文の概要: Verifiability-First Agents: Provable Observability and Lightweight Audit Agents for Controlling Autonomous LLM Systems
- arxiv url: http://arxiv.org/abs/2512.17259v1
- Date: Fri, 19 Dec 2025 06:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.260773
- Title: Verifiability-First Agents: Provable Observability and Lightweight Audit Agents for Controlling Autonomous LLM Systems
- Title(参考訳): 可視性第一エージェント:自律型LDMシステム制御のための可観測性および軽量監査エージェント
- Authors: Abhivansh Gupta,
- Abstract要約: 本稿では,暗号およびシンボリック手法を用いてエージェントアクションの実行時の検証を統合する,検証可能性第一アーキテクチャを提案する。
また、制約付き推論を用いて意図と行動の連続的な検証を行う監査エージェントを組み込む。
当社のアプローチでは,評価の焦点を,誤適応の可能性から,誤適応の迅速かつ確実な検出と再伝達にシフトしています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLM-based agents grow more autonomous and multi-modal, ensuring they remain controllable, auditable, and faithful to deployer intent becomes critical. Prior benchmarks measured the propensity for misaligned behavior and showed that agent personalities and tool access significantly influence misalignment. Building on these insights, we propose a Verifiability-First architecture that (1) integrates run-time attestations of agent actions using cryptographic and symbolic methods, (2) embeds lightweight Audit Agents that continuously verify intent versus behavior using constrained reasoning, and (3) enforces challenge-response attestation protocols for high-risk operations. We introduce OPERA (Observability, Provable Execution, Red-team, Attestation), a benchmark suite and evaluation protocol designed to measure (i) detectability of misalignment, (ii) time to detection under stealthy strategies, and (iii) resilience of verifiability mechanisms to adversarial prompt and persona injection. Our approach shifts the evaluation focus from how likely misalignment is to how quickly and reliably misalignment can be detected and remediated.
- Abstract(参考訳): LLMベースのエージェントは、より自律的でマルチモーダルに成長し、コントロール可能で監査可能で、デプロイ意図に忠実であることを保証する。
以前のベンチマークでは、不整合行動の正当性を測定し、エージェントの個性やツールアクセスが不整合に著しく影響を及ぼすことを示した。
これらの知見に基づいて,(1)暗号的および記号的手法を用いてエージェントアクションの実行時検証を統合し,(2)制約付き推論を用いて意図対動作を継続的に検証する軽量監査エージェントを組み込み,(3)リスクの高い操作に対してチャレンジ応答型検証プロトコルを強制する検証可能性第一アーキテクチャを提案する。
OPERA (Observability, Provable Execution, Red-team, Attestation) は,ベンチマークスイートと評価プロトコルである。
(i)誤認の検知可能性
二 秘策による発見の時期、及び
三 対人的衝動及びペルソナ注射に対する検証可能性機構の弾力性
当社のアプローチでは,評価の焦点を,誤適応の可能性から,誤適応の迅速かつ確実な検出と再伝達にシフトしています。
関連論文リスト
- Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - DoubleAgents: Exploring Mechanisms of Building Trust with Proactive AI [29.777890680647186]
DoubleAgentsは、ユーザの介入を通じて透明性とコントロールを組み込むエージェント計画ツールである。
内蔵された応答シミュレーションは現実的なシナリオを生成し、ユーザーはリハーサルし、ポリシーを洗練し、信頼度を調整できる。
論文 参考訳(メタデータ) (2025-09-16T03:43:13Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Evaluating LLM Agent Adherence to Hierarchical Safety Principles: A Lightweight Benchmark for Probing Foundational Controllability Components [0.0]
本稿では,エージェントが高レベルの安全原則を維持できる能力を評価するための,軽量で解釈可能なベンチマークを提案する。
評価の結果,(1)コンプライアンスソリューションが存在する場合でも,安全性の制約がタスクパフォーマンスを低下させる定量的な「コンプライアンスコスト」と,(2)高いコンプライアンスが選択よりもタスク能力の低下を隠蔽する「コンプライアンスのイリュージョン」の2つが明らかになった。
論文 参考訳(メタデータ) (2025-06-03T01:16:34Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [58.39520480675366]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。