論文の概要: Auditable Early Stopping for Agentic Routing: Ledger-Verified Run-Wise Certificates under Local DP
- arxiv url: http://arxiv.org/abs/2509.10550v1
- Date: Tue, 09 Sep 2025 01:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.657831
- Title: Auditable Early Stopping for Agentic Routing: Ledger-Verified Run-Wise Certificates under Local DP
- Title(参考訳): エージェントルーティングの早期停止:ローカルDPにおけるLedger-Verified Run-Wise Certificates
- Authors: Shivam Akhauri,
- Abstract要約: 本研究では,子どもが葉を分割する文脈インデックス付き接頭辞DAGについて,パーターブ・アンド・マップ(PaM)の早期発見証明書を検索した。
経路スコアと鍵の打ち分けは,オフセット伝搬により遅延的に実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In production tool-use agents (e.g., retrieval $\to$ summarization $\to$ calculator), routers must know when to stop exploring while preserving local DP and leaving an auditable trail. We present run-wise early-stopping certificates for perturb-and-MAP (PaM) best-first search on context-indexed prefix DAGs whose children partition the leaves. We couple realized path scores and pruning keys to a single exponential race realized lazily via offset propagation. With exact leaf counts $N(v)$, lazy reuse at winners and independent residuals yield an Exact mode with a sound halting rule based on Key$(v) = M_tau(v) - \log t(v)$, where $t(v)$ is the minimum arrival time among leaves under $v$. With only upper bounds $N_{ub} \ge N$, a Surrogate mode uses a parent-anchored surrogate race without winner reuse; because $-\log \hat t \ge -\log t$, the frontier invariant holds and stopping remains sound. We add a compiler from shared-node DAGs to prefix DAGs, local finiteness checks, a SuffixCountDP routine for exact counts with safe downgrades, a validator-side tightening term $\kappa = \log(N/N_{ub})$, and an auditable ledger/validator that replays runs deterministically. We also give an absolute LogSumExp tail bound, an acyclicity certificate, and a fallback PRF-per-leaf scheme (NoCert) whose work matches a realized-score best-first baseline up to a small per-node overhead. Finally, we integrate a price/latency/$(\epsilon, \delta)$-aware multi-LLM controller and DP-trained LoRA adapters chosen at runtime; these choices do not affect the two-mode frontier invariants. We report Mac/commodity-hardware reproducible results, a small real tool-use pipeline, and validator-checked audit trails, with code and ledgers provided.
- Abstract(参考訳): 実運用用ツール利用エージェント(例えば、検索$\to$ summarization$\to$ calculator)では、ルータはローカルDPを保存し、監査可能なトレイルを残しながら、いつ探索をやめるべきかを知る必要がある。
本研究では,子どもが葉を分割する文脈インデックス付き接頭辞DAGについて,パーターブ・アンド・マップ(PaM)の早期発見証明書を検索した。
経路スコアと鍵の打ち分けは,オフセット伝搬により遅延的に実現した。
正確なリーフ数を$N(v)$とすると、勝者と独立残余に対する遅延再利用は、Key$(v) = M_tau(v) - \log t(v)$ に基づいた音の停止規則を持つExactモードが得られる。
上界の$N_{ub} \ge N$のみの場合、サロゲートモードは親アンコールされたサロゲートレースを勝者の再利用なしに使用する。
我々は共有ノードDAGからプレフィックスDAGへのコンパイラ、ローカル有限性チェック、安全なダウングレードを持つ正確なカウントのためのSuffixCountDPルーチン、バリデータ側締め付け項$\kappa = \log(N/N_{ub})$、リプレイする監査可能な台帳/バリケータを追加します。
また、絶対的なLogSumExpテールバウンド、非サイクリック証明書、およびノード毎の小さなオーバーヘッドまで実現された最優先のベースラインに適合するフォールバックPRF-per-leafスキーム(NoCert)も提供します。
最後に、価格/遅延/$(\epsilon, \delta)$-aware multi-LLMコントローラとDPで訓練されたLoRAアダプタを実行時に統合する。
我々は、Mac/commodity-hardware再現可能な結果、小さなツール使用パイプライン、バリデータチェックによる監査パス、コードと台帳の提供を報告した。
関連論文リスト
- UC-Secure Star DKG for Non-Exportable Key Shares with VSS-Free Enforcement [0.0]
UC-Secure Distributed Key Generation (DKG)は、署名された鍵を秘密にしながら共通の公開鍵を導出する。
ハードウェアベースのキーアイソレーションモジュールによって強制されるNon-eXportable Key (NXK) 設定をターゲットにしている。
指定されたサービスが共同署名をしなければならないが、単独では署名できないマルチデバイス閾値ウォレットに対して、Star DKG(SDKG)を構築する。
論文 参考訳(メタデータ) (2026-02-25T18:32:42Z) - MerkleSpeech: Public-Key Verifiable, Chunk-Localised Speech Provenance via Perceptual Fingerprints and Merkle Commitments [0.0]
本稿では,公開鍵検証・チャンク局所音声認識システムであるMerkleSpeechを提案する。
このシステムは、短い音声チャンク上で知覚指紋を計算し、それを発行キーで署名されたMerkleツリーにコミットする。
我々は,再サンプリング,帯域通過フィルタ,付加雑音下での極めて低い偽陽性率を目標とした実験を行った。
論文 参考訳(メタデータ) (2026-02-10T11:58:19Z) - SOCKET: SOft Collison Kernel EsTimator for Sparse Attention [25.278711498381494]
長期コンテキスト推論におけるスパシティの爆発は、大規模言語モデルのスケーリングの中心となる。
Locality-Sensitive Hashing (LSH) はスパシフィケーションプリミティブであり、確率的、類似性を認識したアグリゲーションに適合するハードバケットを置き換える。
SOCKETはSoft Collision EsTimatorで、ハードバケットのマッチを確率的、類似性を考慮したアグリゲーションに置き換える。
論文 参考訳(メタデータ) (2026-02-06T00:41:44Z) - FASA: Frequency-aware Sparse Attention [56.26881872333624]
本稿では,トークンの重要度を動的に予測することで,クエリ対応のトークン消去を実現する新しいフレームワークであるFASAを提案する。
我々の重要な発見は、小さな「支配的」FCの特定可能なサブセットが、常に注目の頭文字と高い文脈の一致を示すことである。
長いコンテキストのタスクのスペクトル全体にわたって、FASAは全てのトークン放出ベースラインを一貫して上回り、ニアオラクル精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T06:09:06Z) - Key-Conditioned Orthonormal Transform Gating (K-OTG): Multi-Key Access Control with Hidden-State Scrambling for LoRA-Tuned Models [26.81598226089532]
K-OTGはデュアルパスコーパスコーパスでトレーニングする:ロールキーを持つ認証された例はタスクの出力を、未承認例は可視なブロックトークンを学習する。
キーは特別なトークンとして追加されず、LoRAを4ビットベースでクリーンに構成する。
論文 参考訳(メタデータ) (2025-12-19T12:42:53Z) - Natural Language Edge Labelling: Decoupling Intent from Execution in Structured LM Reasoning [0.0]
本稿では,各検索エッジに自由形式の自然言語ディレクティブを付加するラベルラタオーバーレイであるNature Language Edge Labelling (NLEL)を紹介する。
NLEL は CoT/ToT を厳密に一般化し、ラベル付きバンドルの下でのトップ$k$選択の時空単調性を証明し、制御ベクトル歪みによりセレクタ不足を限定する。
論文 参考訳(メタデータ) (2025-10-06T14:00:02Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - $\mathrm{TIME}[t]\subseteq \mathrm{SPACE}[O(\sqrt{t})]$ via Tree Height Compression [0.0]
Algebraic Replay Engineは、ポインターレスDSSとインデックスなしストリーミングとともに、一定の大きさのフィールド上の一定度マップを持つ。
S(b)=O(b+t/b)$は、残余乗法的ポリログ因子を持たない$O(sqrtt)$空間を与える。
論文 参考訳(メタデータ) (2025-08-20T16:27:53Z) - DP-Fusion: Token-Level Differentially Private Inference for Large Language Models [51.71591819896191]
大規模言語モデル(LLM)は、推論時にプライバシを保存しない。
DP-Fusion は LLM の出力にコンテキスト内のトークンの集合が持つ影響を証明的に束縛する。
提案手法は, 理論的および実証的プライバシを大幅に改善した, 証明可能な民営化文書を作成する。
論文 参考訳(メタデータ) (2025-07-06T20:49:39Z) - Exact Certification of (Graph) Neural Networks Against Label Poisoning [50.87615167799367]
グラフニューラルネットワーク(GNN)におけるラベルフリップの正確な認証手法を提案する。
本稿では,ノード分類タスクにおける広範囲なGNNアーキテクチャの認証に本手法を適用した。
私たちの研究は、ニューラルネットワークによって引き起こされた毒殺攻撃に対する最初の正確な認証を提示します。
論文 参考訳(メタデータ) (2024-11-30T17:05:12Z) - Restarted Bayesian Online Change-point Detection for Non-Stationary
Markov Decision Processes [12.229154524476405]
我々は、Restarted Bayesian Online Change-Point Detectionアルゴリズム(R-BOCPD)の変種を導入する。
多項分布から標本化された状態遷移カーネルを用いたMPP用UCRL2アルゴリズムの改良版を提案する。
我々は,R-BOCPD-UCRL2が$Oleft(D O sqrtA T K_T logleft (fracTdelta right) + fracK_Tdeltaminlimits_ell の好意的な後悔境界を享受していることを示す。
論文 参考訳(メタデータ) (2023-04-01T05:26:41Z) - On the Unlikelihood of D-Separation [69.62839677485087]
解析的な証拠として、大きなグラフ上では、d-分離は存在が保証されたとしても珍しい現象である。
PCアルゴリズムでは、その最悪ケース保証がスパースグラフで失敗することが知られているが、平均ケースでも同じことが言える。
UniformSGSでは、既存のエッジに対してランニング時間が指数的であることが知られているが、平均的な場合、それは既存のほとんどのエッジにおいても期待されるランニング時間であることを示す。
論文 参考訳(メタデータ) (2023-03-10T00:11:18Z) - Collective Robustness Certificates: Exploiting Interdependence in Graph
Neural Networks [71.78900818931847]
ノード分類、画像分割、名前付き一致認識といったタスクでは、複数の予測を同時に出力する分類器があります。
既存の対向ロバスト性証明は、それぞれの予測を独立に考慮し、従ってそのようなタスクに対して過度に悲観的である。
本稿では,摂動下で安定に保たれることが保証される予測数を計算した最初の集合ロバスト性証明を提案する。
論文 参考訳(メタデータ) (2023-02-06T14:46:51Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Beta-CROWN: Efficient Bound Propagation with Per-neuron Split
Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。
Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。
BaBを早期に終了することにより、不完全な検証にも使用できます。
論文 参考訳(メタデータ) (2021-03-11T11:56:54Z) - Logarithmic Regret for Reinforcement Learning with Linear Function
Approximation [99.59319332864129]
最近提案された2つの線形MDP仮定で対数的後悔が達成可能であることを示す。
我々の知る限り、これらは線型関数近似を持つRLに対する最初の対数的後悔境界である。
論文 参考訳(メタデータ) (2020-11-23T17:25:00Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。