論文の概要: Adversarial Latent-State Training for Robust Policies in Partially Observable Domains
- arxiv url: http://arxiv.org/abs/2603.07313v2
- Date: Tue, 10 Mar 2026 17:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.705332
- Title: Adversarial Latent-State Training for Robust Policies in Partially Observable Domains
- Title(参考訳): 部分観察可能な領域におけるロバスト政策の逆潜時訓練
- Authors: Angad Singh Ahuja,
- Abstract要約: 我々は、敵がエピソードの前に隠された初期潜伏分布を選択する集中的な設定をフォーマル化する。
我々は,最短ケースディフェンダー分布を特徴付ける潜在ミニマックスの原理を証明し,最適応答不等式を導出する。
潜在初期状態問題に対して、このフレームワークはクリーンな評価ゲームと有用な定理モチベーション付き診断を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Robustness under latent distribution shift remains challenging in partially observable reinforcement learning. We formalize a focused setting where an adversary selects a hidden initial latent distribution before the episode, termed an adversarial latent-initial-state POMDP. Theoretically, we prove a latent minimax principle, characterize worst-case defender distributions, and derive approximate best-response inequalities with finite-sample concentration bounds that make the optimization and sampling terms explicit. Empirically, using a Battleship benchmark, we demonstrate that targeted exposure to shifted latent distributions reduces average robustness gaps between Spread and Uniform distributions from 10.3 to 3.1 shots at equal budget. Furthermore, iterative best-response training exhibits budget-sensitive behavior that is qualitatively consistent with the theorem-guided diagnostics once one accounts for discounted PPO surrogates and finite-sample noise. Ultimately, we show that for latent-initial-state problems, the framework yields a clean evaluation game and useful theorem-motivated diagnostics while also making clear where implementation-level surrogates and optimization limits enter.
- Abstract(参考訳): 潜在分布シフト下のロバスト性は、部分的に観察可能な強化学習において依然として困難である。
我々は、敵がエピソードの前に隠された初期潜伏分布を選択した集中的な設定を定式化し、対向的潜伏状態POMDPと呼ぶ。
理論的には、最低ケースディフェンダー分布を特徴づける潜在最小値原理を証明し、最適化とサンプリング項を明示する有限サンプル濃度境界を持つ最適応答不等式を導出する。
経験的に、Battleshipベンチマークを用いて、シフトした遅延分布に対するターゲット露光が、スプレッドとユニフォームの分布間の平均ロバスト性ギャップを、同じ予算で10.3から3.1ショットに減少させることを示した。
さらに、反復的ベストレスポンストレーニングは、割引されたPPOサロゲートと有限サンプルノイズを考慮に入れれば、定理誘導診断と質的に整合した予算依存性の挙動を示す。
最終的に、潜在初期状態問題に対して、このフレームワークはクリーンな評価ゲームと有用な定理モチベーション付き診断を提供するとともに、実装レベルのサロゲートや最適化の限界がどこにあるかを明確にする。
関連論文リスト
- Towards Anytime-Valid Statistical Watermarking [63.02116925616554]
我々は、任意の時間価推論で最適なサンプリングを統一する、最初のe-value-based watermarking frameworkであるAnchored E-Watermarkingを開発した。
本フレームワークはサンプル効率を大幅に向上させ,最先端のベースラインに対して,検出に必要な平均トークン予算を13~15%削減する。
論文 参考訳(メタデータ) (2026-02-19T18:32:26Z) - Closing the Distribution Gap in Adversarial Training for LLMs [50.33186122381395]
LLMの対抗訓練は、敵に対する堅牢性を確実に改善する最も有望な方法の1つである。
現在の対人訓練アルゴリズムは、トレーニングセットにおける敵の損失を最小限に抑えるが、データ分布を不十分にカバーし、一見単純な攻撃の脆弱性をもたらすと我々は主張する。
そこで我々は,プロンプトと応答の真の結合分布を近似するために,DAT(Distributal Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2026-02-16T22:34:52Z) - Explainability-Guided Defense: Attribution-Aware Model Refinement Against Adversarial Data Attacks [6.573058520271728]
私たちは、トレーニング中に直接活用できる、解釈可能性と堅牢性との関連性を特定します。
本稿では,局所解釈可能なモデル非依存表現をアクティブな訓練信号に変換する属性誘導型改良フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-02T19:36:03Z) - Adaptive Accountability in Networked MAS: Tracing and Mitigating Emergent Norms at Scale [2.28438857884398]
大規模ネットワーク化されたマルチエージェントシステムは、ますます重要なインフラの基盤となっている。
ライフサイクルを意識した監査台帳を通じて責任フローをトレースする適応的説明責任フレームワークを導入する。
我々は、期待される介入コストが敵の支払額を超えると、妥協された相互作用の長期比率は1より厳密に小さい定数で制限されることを示す有界補完定理を証明した。
論文 参考訳(メタデータ) (2025-12-21T02:04:47Z) - The Eminence in Shadow: Exploiting Feature Boundary Ambiguity for Robust Backdoor Attacks [51.468144272905135]
深層ニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱なままでも重要なアプリケーションを支える。
バックドア攻撃を標的とした理論的解析を行い,不均質なモデル操作を実現するための疎い決定境界に着目した。
エミネンス(Eminence)は、理論的な保証と固有なステルス特性を持つ、説明可能で堅牢なブラックボックスバックドアフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T08:09:07Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - VALID: a Validated Algorithm for Learning in Decentralized Networks with Possible Adversarial Presence [13.612214163974459]
不均一なデータを持つ非方向性ネットワークに対して、検証された分散学習のパラダイムを導入する。
VALIDプロトコルは、検証された学習保証を達成した最初のプロトコルである。
興味深いことに、VALIDは敵のない環境での最適なパフォーマンス指標を維持している。
論文 参考訳(メタデータ) (2024-05-12T15:55:43Z) - Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。
本研究では,長尾分布下における敵対的脆弱性と防御について検討する。
我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文 参考訳(メタデータ) (2021-04-06T17:53:08Z) - Certified Distributional Robustness on Smoothed Classifiers [27.006844966157317]
本稿では,ロバスト性証明として,入力分布に対する最悪の逆損失を提案する。
双対性と滑らか性を利用して、証明書のサロゲートとして容易に計算できる上限を与える。
論文 参考訳(メタデータ) (2020-10-21T13:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。