論文の概要: Verifier-Bound Communication for LLM Agents: Certified Bounds on Covert Signaling
- arxiv url: http://arxiv.org/abs/2603.00381v1
- Date: Fri, 27 Feb 2026 23:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.165116
- Title: Verifier-Bound Communication for LLM Agents: Certified Bounds on Covert Signaling
- Title(参考訳): LLMエージェントの検証境界通信:カバー信号の認証境界
- Authors: Om Tailor,
- Abstract要約: 言語モデルエージェントを結合することで、ポリシーに準拠したメッセージの調整を表面レベルで隠蔽することができる。
生成と受け入れを分離するプロトコルであるCLBCを提案する。
このプロトコルは、遅延リークと明示的な残留チャネルの観点から、転写リークの上限をいかに高めるかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Colluding language-model agents can hide coordination in messages that remain policy-compliant at the surface level. We present CLBC, a protocol where generation and admission are separated: a message is admitted to transcript state only if a small verifier accepts a proof-bound envelope under a pinned predicate $Π$. The predicate binds policy hash, public randomness schedule, transcript chaining, latent schema constraints, canonical metadata/tool fields, and deterministic rejection codes. We show how this protocol yields an upper bound on transcript leakage in terms of latent leakage plus explicit residual channels, derive adaptive composition guarantees, and state a semantic lower bound when policy-valid alternatives remain choosable. We report extensive empirically grounded evidence: aggregate evaluation satisfies all prespecified thresholds; strict lane decoder advantage is bounded at 0.0000 with MI proxy 0.0636; adaptive-colluder stress tests remain below attacker thresholds; and baseline separation shows large gaps between reject-by-default semantics and audit-only controls. We further quantify operational tradeoffs. Strict full-proof mode has median turn latency 27.53s (p95 28.08s), while sampled proving reduces non-proved-turn latency to 0.327ms. The central finding is that bottlenecks alone are insufficient: security claims depend on verifiable admission semantics that are online, deterministic, and fail-closed.
- Abstract(参考訳): 言語モデルエージェントを結合することで、ポリシーに準拠したメッセージの調整を表面レベルで隠蔽することができる。
CLBCは、生成と入力を分離するプロトコルであり、小さな検証者がピン付き述語$=$で証明バウンドの封筒を受理した場合にのみ、メッセージが転写状態に許可される。
述語はポリシーハッシュ、公開ランダムネススケジュール、トランスクリプトチェイン、潜在スキーマ制約、標準メタデータ/ツールフィールド、決定論的拒絶コードに結合する。
このプロトコルは、遅延リークと明示的な残留チャネルの点において、転写リークの上限をどうやって獲得するかを示し、適応的な構成保証を導出し、ポリシー無効な代替案が構成可能な場合、意味的な下位境界を宣言する。
集合的評価はすべての所定のしきい値を満たす; 厳密なレーンデコーダの優位性は、MIプロキシ0.0636で0.0000に制限される; 適応型コルーダーストレステストは、攻撃的しきい値以下であり、ベースライン分離は、リジェクション・バイ・デフォルトのセマンティクスと監査専用制御の間に大きなギャップを示す。
運用上のトレードオフをさらに定量化します。
厳密な完全防御モードでは27.53秒 (p95 28.08秒) の旋回レイテンシが中央値であり、サンプル実験では非提案の旋回レイテンシが0.327ミリ秒に短縮された。
セキュリティクレームは、オンライン、決定論的、フェイルクローズされた検証可能なインセマンティクスに依存します。
関連論文リスト
- PCN-Rec: Agentic Proof-Carrying Negotiation for Reliable Governance-Constrained Recommendation [0.0]
PCN-Rec(PCN-Rec)は、自然言語による推論を決定論的執行から切り離す、証明付きネゴシエーションパイプラインである。
MovieLens-100Kでは、PCN-Recが98.55%のパスレートを達成した。
論文 参考訳(メタデータ) (2026-01-14T15:00:00Z) - Conditional Coverage Diagnostics for Conformal Prediction [47.93989136542648]
条件付きカバレッジ推定が分類問題であることを示す。
得られたメトリクスの族をターゲットカバレッジ(ERT)の過剰なリスクと呼びます。
ERTのオープンソースパッケージと、以前の条件付きカバレッジメトリクスをリリースしています。
論文 参考訳(メタデータ) (2025-12-12T18:47:39Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Proof-Carrying Numbers (PCN): A Protocol for Trustworthy Numeric Answers from LLMs via Claim Verification [0.0]
我々は,機械的検証により数値忠実度を強制するプレゼンテーション層プロトコルであるtextbfProof-Carrying Numbers (PCN) を提案する。
PCNは軽量でモデルに依存しず、既存のアプリケーションにシームレスに統合され、暗号的なコミットメントで拡張できる。
論文 参考訳(メタデータ) (2025-09-08T17:20:16Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - Short Paper: Accountable Safety Implies Finality [10.589723476970443]
ビザンチン・フォールト耐性(BFT)状態機械複製(SMR)コンセンサスプロトコルについて、2つの重要なデシラタが研究されている。
説明責任の安全性が最終性を意味することを示し、その結果、以前の結果を統一する。
論文 参考訳(メタデータ) (2023-08-31T17:58:38Z) - Approximate Conditional Coverage via Neural Model Approximations [0.030458514384586396]
実験的に信頼性の高い近似条件付きカバレッジを得るためのデータ駆動手法を解析する。
我々は、限界範囲のカバレッジ保証を持つ分割型代替案で、実質的な(そして、そうでない)アンダーカバーの可能性を実証する。
論文 参考訳(メタデータ) (2022-05-28T02:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。