論文の概要: Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees
- arxiv url: http://arxiv.org/abs/2604.14243v2
- Date: Fri, 17 Apr 2026 15:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.37613
- Title: Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees
- Title(参考訳): レギュレットとヴァイオレーションの保証を受けた悲観的支援者の下での最適政策学習
- Authors: Sourav Ganguly, Kartik Pandit, Arnob Ghosh,
- Abstract要約: 実世界の意思決定システムは、状態遷移がエージェントの行動に依存する環境で機能する。
Standard Constrained MDP の定式化は、エージェントが状態進化の唯一のドライバであると仮定する。
エージェントポリシーと敵ポリシーの両方に対する楽観性を維持するモデルベースアルゴリズムであるtextbfRobust Hallucinated Constrained Upper-Confidence RL (textttRHC-UCRL) を提案する。
- 参考スコア(独自算出の注目度): 6.310266319378214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world decision-making systems operate in environments where state transitions depend not only on the agent's actions, but also on \textbf{exogenous factors outside its control}--competing agents, environmental disturbances, or strategic adversaries--formally, $s_{h+1} = f(s_h, a_h, \bar{a}_h)+ω_h$ where $\bar{a}_h$ is the adversary/external action, $a_h$ is the agent's action, and $ω_h$ is an additive noise. Ignoring such factors can yield policies that are optimal in isolation but \textbf{fail catastrophically in deployment}, particularly when safety constraints must be satisfied. Standard Constrained MDP formulations assume the agent is the sole driver of state evolution, an assumption that breaks down in safety-critical settings. Existing robust RL approaches address this via distributional robustness over transition kernels, but do not explicitly model the \textbf{strategic interaction} between agent and exogenous factor, and rely on strong assumptions about divergence from a known nominal model. We model the exogenous factor as an \textbf{adversarial policy} $\barπ$ that co-determines state transitions, and ask how an agent can remain both optimal and safe against such an adversary. \emph{To the best of our knowledge, this is the first work to study safety-constrained RL under explicit adversarial dynamics}. We propose \textbf{Robust Hallucinated Constrained Upper-Confidence RL} (\texttt{RHC-UCRL}), a model-based algorithm that maintains optimism over both agent and adversary policies, explicitly separating epistemic from aleatoric uncertainty. \texttt{RHC-UCRL} achieves sub-linear regret and constraint violation guarantees.
- Abstract(参考訳): 現実の意思決定システムは、エージェントのアクションだけでなく、エージェントのアクションに依存する環境でも動作する。-競合エージェント、環境障害、戦略的敵に対して--形式的に、$s_{h+1} = f(s_h, a_h, \bar{a}_h)+ω_h$ ここで、$\bar{a}_h$は逆作用、$a_h$はエージェントのアクション、$ω_h$はエージェントのアクション、$ω_h$は追加ノイズである。
このような要因を無視すると、特に安全上の制約を満たさなければならない場合、独立して最適なポリシーが得られるが、‘textbf{fail catastrophically in deployment} である。
Standard Constrained MDP の定式化は、エージェントが唯一の状態進化のドライバであると仮定する。
既存のロバストなRLアプローチは、遷移カーネル上の分布的ロバスト性を通じてこの問題に対処するが、エージェントと外生的因子の間の \textbf{strategic interaction} を明示的にモデル化せず、既知の名目モデルからの発散に関する強い仮定に依存している。
我々は、外因性因子を、状態遷移を共決定する \textbf{adversarial policy} $\barπ$ としてモデル化し、エージェントがそのような敵に対して最適かつ安全に留まることができるかを問う。
我々の知る限りでは、これは明示的な逆数論の下で安全に制約されたRLを研究する最初の研究である。
本稿では, エージェントポリシーと敵ポリシーの両方に対する楽観性を維持するモデルベースのアルゴリズムである, 階層的不確実性からてててててんかんを明示的に分離する。
texttt{RHC-UCRL} は、サブ線形後悔と制約違反の保証を達成する。
関連論文リスト
- Byzantine-Robust and Differentially Private Federated Optimization under Weaker Assumptions [89.52532304099522]
フェデレートラーニング(FL)は、クライアントが生データを集中せずに共有モデルを共同でトレーニングすることを可能にし、固有のプライバシーレベルを提供する。
グラデーションとモデル更新は機密情報を漏洩する可能性があるが、悪意のあるサーバはビザンティン操作のような敵攻撃をマウントする可能性がある。
これらの脆弱性は、統合されたフレームワーク内の差分プライバシー(DP)とビザンチンの堅牢性に対処する必要性を強調している。
Byz-Clip21-SGD2Mを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:39:09Z) - Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control [12.053369001333058]
本稿では,予測コスト制約をFSD(First-Order Dominance)制約に置き換える,リスクに敏感なアライメントフレームワークを提案する。
RADは, 有効性を保ちながら, ベースラインよりも無害性を向上し, アウト・オブ・ディストリビューション評価においてより堅牢性を示す。
論文 参考訳(メタデータ) (2026-03-11T16:24:20Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding [59.16244104797919]
本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。
DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。
アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
論文 参考訳(メタデータ) (2026-03-09T09:21:29Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Socially-Weighted Alignment: A Game-Theoretic Framework for Multi-Agent LLM Systems [17.658093330392052]
本稿では,エージェントの個人目的と集団福祉の推定を補間することにより,推論時間決定の修正を行うゲーム理論フレームワークを提案する。
以上の結果から, SWAは, 過負荷下での需要増加のために, エージェントがもはや限界的なインセンティブを持たない, 臨界しきい値$*=(n-)/(n-1)$を誘導することを示した。
論文 参考訳(メタデータ) (2026-02-16T05:17:58Z) - Scalable and Reliable State-Aware Inference of High-Impact N-k Contingencies [4.588028371034407]
ACパワーフローやACOPFによる全機能停止組合せの排他的評価は日常的な操作では不可能である。
本稿では,高インパクトな$N!-k$の停止シナリオを直接生成するように設計された,スケーラブルでステートアウェアな並行性推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-10T06:55:59Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。