論文の概要: Auditable Early Stopping for Agentic Routing: Ledger-Verified Run-Wise Certificates under Local DP
- arxiv url: http://arxiv.org/abs/2509.10550v2
- Date: Tue, 16 Sep 2025 02:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 13:40:22.864629
- Title: Auditable Early Stopping for Agentic Routing: Ledger-Verified Run-Wise Certificates under Local DP
- Title(参考訳): エージェントルーティングの早期停止:ローカルDPにおけるLedger-Verified Run-Wise Certificates
- Authors: Shivam Akhauri,
- Abstract要約: ツール・ユース・エージェントのための最優先ルータが、よい葉を欠くことなく探索を止められるようになれば、私たちは対処します。
本稿では,各ノードのキーを,葉の摂動を実現する指数関数レースに結合するランワイズ証明書を提案する。
合成グラフと小さな実パイプラインの実験は、厳密な停止、決定論的リプレイ、オーバーヘッドの低さを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address when a best-first router for tool-use agents can stop exploring without missing a better leaf, while preserving local differential privacy (LDP) and leaving an audit trail. We introduce a run-wise certificate that couples each node's key to the same exponential race that realizes leaf perturbations; the usual halting rule (stop when the maximum over $v$ in $F$ of Key$(v) \le B^*$) then certifies the realized run. We give two certified modes on context-indexed prefix DAGs with child partition: (i) Exact (known counts), using lazy offset propagation with winner reuse; and (ii) Surrogate (upper bounds only), which anchors keys to a parent-level surrogate race and allows validator tightening via $\kappa = \log(N / N_{ub}$). A small compiler enforces the partition property, and an admissible, race-independent M(tau) keeps keys sound. The ledger logs uniforms, counts, and tie handling; privacy follows by post-processing. Experiments on synthetic graphs and a small real pipeline show tight stopping, deterministic replay, and low overhead.
- Abstract(参考訳): ツール使用エージェントのための最優先ルータが、ローカルディファレンシャルプライバシ(LDP)を保護し、監査証跡を残しながら、より良いリーフを欠くことなく探索を停止できる場合に対処する。
それぞれのノードのキーを同じ指数関数レースに結合して葉の摂動を実現するランワイズ証明書を導入し、通常の停止規則($v$ in $F$ of Key$(v) \le B^*$)が実行されたランを認証する。
子分割付き文脈インデックス付きプレフィックスDAGに2つの認証モードを与える。
一 有効(既知の数)、遅延オフセットの伝播及び勝者の再利用
(ii)サロゲート(上限のみ)は、親レベルのサロゲートレースにキーを固定し、$\kappa = \log(N / N_{ub}$)を介してバリケータの締め付けを可能にする。
小さなコンパイラがパーティションプロパティを強制し、許容可能な競合非依存のM(tau)がキーのサウンドを保持する。
台帳は制服、カウント、ネクタイハンドリングをログし、プライバシーは後処理によって従う。
合成グラフと小さな実パイプラインの実験は、厳密な停止、決定論的リプレイ、オーバーヘッドの低さを示している。
関連論文リスト
- $\mathrm{TIME}[t]\subseteq \mathrm{SPACE}[O(\sqrt{t})]$ via Tree Height Compression [0.0]
Algebraic Replay Engineは、ポインターレスDSSとインデックスなしストリーミングとともに、一定の大きさのフィールド上の一定度マップを持つ。
S(b)=O(b+t/b)$は、残余乗法的ポリログ因子を持たない$O(sqrtt)$空間を与える。
論文 参考訳(メタデータ) (2025-08-20T16:27:53Z) - Restarted Bayesian Online Change-point Detection for Non-Stationary
Markov Decision Processes [12.229154524476405]
我々は、Restarted Bayesian Online Change-Point Detectionアルゴリズム(R-BOCPD)の変種を導入する。
多項分布から標本化された状態遷移カーネルを用いたMPP用UCRL2アルゴリズムの改良版を提案する。
我々は,R-BOCPD-UCRL2が$Oleft(D O sqrtA T K_T logleft (fracTdelta right) + fracK_Tdeltaminlimits_ell の好意的な後悔境界を享受していることを示す。
論文 参考訳(メタデータ) (2023-04-01T05:26:41Z) - On the Unlikelihood of D-Separation [69.62839677485087]
解析的な証拠として、大きなグラフ上では、d-分離は存在が保証されたとしても珍しい現象である。
PCアルゴリズムでは、その最悪ケース保証がスパースグラフで失敗することが知られているが、平均ケースでも同じことが言える。
UniformSGSでは、既存のエッジに対してランニング時間が指数的であることが知られているが、平均的な場合、それは既存のほとんどのエッジにおいても期待されるランニング時間であることを示す。
論文 参考訳(メタデータ) (2023-03-10T00:11:18Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Logarithmic Regret for Reinforcement Learning with Linear Function
Approximation [99.59319332864129]
最近提案された2つの線形MDP仮定で対数的後悔が達成可能であることを示す。
我々の知る限り、これらは線型関数近似を持つRLに対する最初の対数的後悔境界である。
論文 参考訳(メタデータ) (2020-11-23T17:25:00Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。