論文の概要: Prudent-Banker: No Extra Fees for Baseline Safety in Adversarial Bandits With and Without Delays
- arxiv url: http://arxiv.org/abs/2605.23351v1
- Date: Fri, 22 May 2026 08:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.259374
- Title: Prudent-Banker: No Extra Fees for Baseline Safety in Adversarial Bandits With and Without Delays
- Title(参考訳): プルーデント・バンカー:相変わらずの相手バンドの安全確保に余分な費用はかからない
- Authors: Ting Hu, Luanda Cai, Emmanouil-Vasileios Vlatakis-Gkaragkounis,
- Abstract要約: 我々は,安全を意識した目標の下で,敵の多腕包帯について,フィードバックの遅れの有無について検討した。
既存のアプローチは、スムーズなコンパレータに対する即時フィードバックとこのトレードオフのバランスをとることができるが、任意の遅延は保守主義と探索の間のミスタイム遷移を引き起こす。
Prudent-Bankerは、オンラインミラーの遅延適応型と位相認識機構の修正を組み合わせた新しいアルゴリズムである。
- 参考スコア(独自算出の注目度): 2.619625212743132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study adversarial multi-armed bandits with and without delayed feedback under a safety-aware goal: achieving minimax-optimal worst-case regret while keeping nearly constant regret relative to a designated "safe" baseline policy. Existing approaches can balance this trade-off with immediate feedback for smooth comparators, but arbitrary delays can mistime transitions between conservatism and exploration, endangering the safety guarantee. To bridge this gap, we propose Prudent-Banker, a novel algorithm that combines a delay-adapted variant of Online Mirror Descent with a modified phased-aggression mechanism. Its key technical contribution is a delay-calibrated restart threshold that rigorously accounts for the worst-case distortion induced by unobserved feedback and reliably detects comparator suboptimality. We also establish new lower bounds for safety-constrained adversarial delayed bandits, showing that the regret guarantees of Prudent-Banker are unimprovable, up to logarithmic factors, under the baseline-safety requirement. To the best of our knowledge, Prudent-Banker is the first algorithm to achieve the optimal safety--robustness trade-off: pseudo-regret $\widetilde{O}(\sqrt{T}+\sqrt{D})$ together with $\widetilde{O}(1)$ regret against the safe comparator, both with and without delays. Experiments across diverse delay distributions show that, unlike standard delay-robust baselines, Prudent-Banker effectively balances safety and learning.
- Abstract(参考訳): 本研究は,安全を意識した目標の下で,最小限の最適最悪の後悔を達成しつつ,指定された「安全」基本方針に対してほぼ一定の後悔を保ちながら,敵のマルチアーム帯状包帯について検討する。
既存のアプローチは、スムーズなコンパレータに対する即時フィードバックとこのトレードオフのバランスをとることができますが、任意の遅延は保守主義と探索の間のミスタイム移行を発生させ、安全性の保証を危険にさらすことができます。
このギャップを埋めるためにPrudent-Bankerを提案する。Prudent-Bankerは、オンラインミラーの遅延適応型と位相調整機構を併用した新しいアルゴリズムである。
その重要な技術的貢献は、未観測のフィードバックによって引き起こされる最悪のケースの歪みを厳格に考慮し、コンパレータの最適度を確実に検出する遅延校正再起動しきい値である。
また,Prudent-Bankerの遺言の保証は,基準安全要件の下では対数的要因までも改善不可能であることを示す。
我々の知る限り、Prudent-Bankerは、最適な安全性-ロバスト性トレードオフを達成するための最初のアルゴリズムである。 pseudo-regret $\widetilde{O}(\sqrt{T}+\sqrt{D})$ と $\widetilde{O}(1)$ の安全コンパレータに対する後悔と、遅延なしに。
様々な遅延分布に対する実験は、標準的な遅延ロスベースラインとは異なり、Prudent-Bankerは安全性と学習のバランスを効果的に保っていることを示している。
関連論文リスト
- Evaluating Prompt Injection Defenses for Educational LLM Tutors: Security-Usability-Latency Trade-offs [51.56484100374058]
ガードレールの設計には、敵の堅牢性、良質なタスクのユーザビリティ、応答レイテンシの明確なトレードオフが伴う。
決定論的パターンフィルタ,構造検証,コンテキストサンドボックス,セッションレベルの動作チェックを組み合わせた,ドメイン固有のマルチレイヤセーフガードパイプラインの評価を行った。
NeMoは16.22パーセントのFPRと1.5パーセントのレイテンシで0パーセントのバイパスに達し、Prompt Guardは38.48パーセントのFPRと3.60パーセントのバイパスを実現している。
論文 参考訳(メタデータ) (2026-03-29T18:52:01Z) - Uncertainty-Aware Jamming Mitigation with Active RIS: A Robust Stackelberg Game Approach [65.06640919319413]
本稿では,アクティブリコンフィギュアブルインテリジェントサーフェス(ARIS)を利用したジャミング緩和について検討する。
正当側と敵側の戦略的相互作用をモデル化するために,Stackelbergゲーム定式化を採用する。
まず、ロバストなアンチジャミング設計のための正当側最適化に組み込む、従者のベストレスポンスとして最適なジャミングポリシーを導出する。
論文 参考訳(メタデータ) (2026-02-20T12:02:01Z) - Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins [31.581870065866568]
制約付きマルコフ決定過程(CMDP)における安全なオンライン強化学習を,強い後悔と違反の指標の下で研究する。
サブリニアの強い報酬を後悔させる既存の原始二重法は、強い制約違反の増大を招いたり、あるいは固有振動による平均点収束に制限されたりしている。
本稿では,マルチ正規化探索(FlexDOME)アルゴリズムによるフレキシブルセーフティドメイン最適化を提案する。
論文 参考訳(メタデータ) (2026-02-11T14:54:26Z) - DRAFT: Task Decoupled Latent Reasoning for Agent Safety [59.46137757545185]
DRAFT(Task Decoupled Latent Reasoning for Agent Safety)を提案する。
エクストラクターは、完全な軌跡をコンパクトな連続的な潜伏ドラフトに蒸留し、リゾナーはドラフトと元の軌跡に共同で参加して安全性を予測する。
DRAFTの精度は63.27%(LoRA)から91.18%に向上した。
論文 参考訳(メタデータ) (2026-02-11T07:45:14Z) - Lipschitz Bandits with Stochastic Delayed Feedback [3.0594138391611967]
本稿では,遅延フィードバックの存在下でのリプシッツ・バンディットの新たな問題を紹介する。
各設定でサブ線形後悔保証を実現するアルゴリズムを設計する。
本稿では,様々な遅延シナリオ下でのアルゴリズムの効率性を示す実験結果を示す。
論文 参考訳(メタデータ) (2025-09-30T22:07:17Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Short Paper: Accountable Safety Implies Finality [10.589723476970443]
ビザンチン・フォールト耐性(BFT)状態機械複製(SMR)コンセンサスプロトコルについて、2つの重要なデシラタが研究されている。
説明責任の安全性が最終性を意味することを示し、その結果、以前の結果を統一する。
論文 参考訳(メタデータ) (2023-08-31T17:58:38Z) - A Unified Analysis of Nonstochastic Delayed Feedback for Combinatorial
Semi-Bandits, Linear Bandits, and MDPs [18.199326045904996]
オンライン学習のためのFTRL(Follow The Regularized Leader)の新たな分析結果を得た。
我々の新しい後悔分解は、FTRLが正則化器のヘシアンに穏やかな仮定の下で複数のラウンドで安定であることを示している。
論文 参考訳(メタデータ) (2023-05-15T13:21:50Z) - Nonstochastic Bandits and Experts with Arm-Dependent Delays [17.272515865592542]
遅延が時間と腕に依存するような遅延環境で,非確率的な盗賊や専門家について検討する。
私たちの分析では、ドリフトに縛られた小説にヒンジを付け、1ラウンドのルックアヘッドを与えられた場合、アルゴリズムがどれだけの精度で実行できるかを測定しました。
論文 参考訳(メタデータ) (2021-11-02T13:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。