論文の概要: Auditable Early Stopping for Agentic Routing: Ledger-Verified Run-Wise Certificates under Local DP
- arxiv url: http://arxiv.org/abs/2509.10550v2
- Date: Tue, 16 Sep 2025 02:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 13:40:22.864629
- Title: Auditable Early Stopping for Agentic Routing: Ledger-Verified Run-Wise Certificates under Local DP
- Title(参考訳): エージェントルーティングの早期停止:ローカルDPにおけるLedger-Verified Run-Wise Certificates
- Authors: Shivam Akhauri,
- Abstract要約: ツール・ユース・エージェントのための最優先ルータが、よい葉を欠くことなく探索を止められるようになれば、私たちは対処します。
本稿では,各ノードのキーを,葉の摂動を実現する指数関数レースに結合するランワイズ証明書を提案する。
合成グラフと小さな実パイプラインの実験は、厳密な停止、決定論的リプレイ、オーバーヘッドの低さを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address when a best-first router for tool-use agents can stop exploring without missing a better leaf, while preserving local differential privacy (LDP) and leaving an audit trail. We introduce a run-wise certificate that couples each node's key to the same exponential race that realizes leaf perturbations; the usual halting rule (stop when the maximum over $v$ in $F$ of Key$(v) \le B^*$) then certifies the realized run. We give two certified modes on context-indexed prefix DAGs with child partition: (i) Exact (known counts), using lazy offset propagation with winner reuse; and (ii) Surrogate (upper bounds only), which anchors keys to a parent-level surrogate race and allows validator tightening via $\kappa = \log(N / N_{ub}$). A small compiler enforces the partition property, and an admissible, race-independent M(tau) keeps keys sound. The ledger logs uniforms, counts, and tie handling; privacy follows by post-processing. Experiments on synthetic graphs and a small real pipeline show tight stopping, deterministic replay, and low overhead.
- Abstract(参考訳): ツール使用エージェントのための最優先ルータが、ローカルディファレンシャルプライバシ(LDP)を保護し、監査証跡を残しながら、より良いリーフを欠くことなく探索を停止できる場合に対処する。
それぞれのノードのキーを同じ指数関数レースに結合して葉の摂動を実現するランワイズ証明書を導入し、通常の停止規則($v$ in $F$ of Key$(v) \le B^*$)が実行されたランを認証する。
子分割付き文脈インデックス付きプレフィックスDAGに2つの認証モードを与える。
一 有効(既知の数)、遅延オフセットの伝播及び勝者の再利用
(ii)サロゲート(上限のみ)は、親レベルのサロゲートレースにキーを固定し、$\kappa = \log(N / N_{ub}$)を介してバリケータの締め付けを可能にする。
小さなコンパイラがパーティションプロパティを強制し、許容可能な競合非依存のM(tau)がキーのサウンドを保持する。
台帳は制服、カウント、ネクタイハンドリングをログし、プライバシーは後処理によって従う。
合成グラフと小さな実パイプラインの実験は、厳密な停止、決定論的リプレイ、オーバーヘッドの低さを示している。
関連論文リスト
- UC-Secure Star DKG for Non-Exportable Key Shares with VSS-Free Enforcement [0.0]
UC-Secure Distributed Key Generation (DKG)は、署名された鍵を秘密にしながら共通の公開鍵を導出する。
ハードウェアベースのキーアイソレーションモジュールによって強制されるNon-eXportable Key (NXK) 設定をターゲットにしている。
指定されたサービスが共同署名をしなければならないが、単独では署名できないマルチデバイス閾値ウォレットに対して、Star DKG(SDKG)を構築する。
論文 参考訳(メタデータ) (2026-02-25T18:32:42Z) - MerkleSpeech: Public-Key Verifiable, Chunk-Localised Speech Provenance via Perceptual Fingerprints and Merkle Commitments [0.0]
本稿では,公開鍵検証・チャンク局所音声認識システムであるMerkleSpeechを提案する。
このシステムは、短い音声チャンク上で知覚指紋を計算し、それを発行キーで署名されたMerkleツリーにコミットする。
我々は,再サンプリング,帯域通過フィルタ,付加雑音下での極めて低い偽陽性率を目標とした実験を行った。
論文 参考訳(メタデータ) (2026-02-10T11:58:19Z) - SOCKET: SOft Collison Kernel EsTimator for Sparse Attention [25.278711498381494]
長期コンテキスト推論におけるスパシティの爆発は、大規模言語モデルのスケーリングの中心となる。
Locality-Sensitive Hashing (LSH) はスパシフィケーションプリミティブであり、確率的、類似性を認識したアグリゲーションに適合するハードバケットを置き換える。
SOCKETはSoft Collision EsTimatorで、ハードバケットのマッチを確率的、類似性を考慮したアグリゲーションに置き換える。
論文 参考訳(メタデータ) (2026-02-06T00:41:44Z) - FASA: Frequency-aware Sparse Attention [56.26881872333624]
本稿では,トークンの重要度を動的に予測することで,クエリ対応のトークン消去を実現する新しいフレームワークであるFASAを提案する。
我々の重要な発見は、小さな「支配的」FCの特定可能なサブセットが、常に注目の頭文字と高い文脈の一致を示すことである。
長いコンテキストのタスクのスペクトル全体にわたって、FASAは全てのトークン放出ベースラインを一貫して上回り、ニアオラクル精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T06:09:06Z) - Key-Conditioned Orthonormal Transform Gating (K-OTG): Multi-Key Access Control with Hidden-State Scrambling for LoRA-Tuned Models [26.81598226089532]
K-OTGはデュアルパスコーパスコーパスでトレーニングする:ロールキーを持つ認証された例はタスクの出力を、未承認例は可視なブロックトークンを学習する。
キーは特別なトークンとして追加されず、LoRAを4ビットベースでクリーンに構成する。
論文 参考訳(メタデータ) (2025-12-19T12:42:53Z) - Natural Language Edge Labelling: Decoupling Intent from Execution in Structured LM Reasoning [0.0]
本稿では,各検索エッジに自由形式の自然言語ディレクティブを付加するラベルラタオーバーレイであるNature Language Edge Labelling (NLEL)を紹介する。
NLEL は CoT/ToT を厳密に一般化し、ラベル付きバンドルの下でのトップ$k$選択の時空単調性を証明し、制御ベクトル歪みによりセレクタ不足を限定する。
論文 参考訳(メタデータ) (2025-10-06T14:00:02Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - $\mathrm{TIME}[t]\subseteq \mathrm{SPACE}[O(\sqrt{t})]$ via Tree Height Compression [0.0]
Algebraic Replay Engineは、ポインターレスDSSとインデックスなしストリーミングとともに、一定の大きさのフィールド上の一定度マップを持つ。
S(b)=O(b+t/b)$は、残余乗法的ポリログ因子を持たない$O(sqrtt)$空間を与える。
論文 参考訳(メタデータ) (2025-08-20T16:27:53Z) - DP-Fusion: Token-Level Differentially Private Inference for Large Language Models [51.71591819896191]
大規模言語モデル(LLM)は、推論時にプライバシを保存しない。
DP-Fusion は LLM の出力にコンテキスト内のトークンの集合が持つ影響を証明的に束縛する。
提案手法は, 理論的および実証的プライバシを大幅に改善した, 証明可能な民営化文書を作成する。
論文 参考訳(メタデータ) (2025-07-06T20:49:39Z) - Exact Certification of (Graph) Neural Networks Against Label Poisoning [50.87615167799367]
グラフニューラルネットワーク(GNN)におけるラベルフリップの正確な認証手法を提案する。
本稿では,ノード分類タスクにおける広範囲なGNNアーキテクチャの認証に本手法を適用した。
私たちの研究は、ニューラルネットワークによって引き起こされた毒殺攻撃に対する最初の正確な認証を提示します。
論文 参考訳(メタデータ) (2024-11-30T17:05:12Z) - Restarted Bayesian Online Change-point Detection for Non-Stationary
Markov Decision Processes [12.229154524476405]
我々は、Restarted Bayesian Online Change-Point Detectionアルゴリズム(R-BOCPD)の変種を導入する。
多項分布から標本化された状態遷移カーネルを用いたMPP用UCRL2アルゴリズムの改良版を提案する。
我々は,R-BOCPD-UCRL2が$Oleft(D O sqrtA T K_T logleft (fracTdelta right) + fracK_Tdeltaminlimits_ell の好意的な後悔境界を享受していることを示す。
論文 参考訳(メタデータ) (2023-04-01T05:26:41Z) - On the Unlikelihood of D-Separation [69.62839677485087]
解析的な証拠として、大きなグラフ上では、d-分離は存在が保証されたとしても珍しい現象である。
PCアルゴリズムでは、その最悪ケース保証がスパースグラフで失敗することが知られているが、平均ケースでも同じことが言える。
UniformSGSでは、既存のエッジに対してランニング時間が指数的であることが知られているが、平均的な場合、それは既存のほとんどのエッジにおいても期待されるランニング時間であることを示す。
論文 参考訳(メタデータ) (2023-03-10T00:11:18Z) - Collective Robustness Certificates: Exploiting Interdependence in Graph
Neural Networks [71.78900818931847]
ノード分類、画像分割、名前付き一致認識といったタスクでは、複数の予測を同時に出力する分類器があります。
既存の対向ロバスト性証明は、それぞれの予測を独立に考慮し、従ってそのようなタスクに対して過度に悲観的である。
本稿では,摂動下で安定に保たれることが保証される予測数を計算した最初の集合ロバスト性証明を提案する。
論文 参考訳(メタデータ) (2023-02-06T14:46:51Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Beta-CROWN: Efficient Bound Propagation with Per-neuron Split
Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。
Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。
BaBを早期に終了することにより、不完全な検証にも使用できます。
論文 参考訳(メタデータ) (2021-03-11T11:56:54Z) - Logarithmic Regret for Reinforcement Learning with Linear Function
Approximation [99.59319332864129]
最近提案された2つの線形MDP仮定で対数的後悔が達成可能であることを示す。
我々の知る限り、これらは線型関数近似を持つRLに対する最初の対数的後悔境界である。
論文 参考訳(メタデータ) (2020-11-23T17:25:00Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。