論文の概要: Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms
- arxiv url: http://arxiv.org/abs/2603.09090v1
- Date: Tue, 10 Mar 2026 02:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.939858
- Title: Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms
- Title(参考訳): 未知ポリシー勾配アルゴリズムにおける有効行動抑制の克服
- Authors: Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara,
- Abstract要約: 強化学習環境では、アクションマスキングは、不正なアクションのペナルティベースのハンドリングを一貫して上回る。
エージェントがまだ訪れていない状態における有効な動作を体系的に抑制する。
共有特徴を持つソフトマックスポリシーでは、訪問状態では作用が無効であるが、訪問状態では有効である場合、確率 $(a mid s*)$ は指数的崩壊によって制限される。
- 参考スコア(独自算出の注目度): 20.93974406100246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning environments with state-dependent action validity, action masking consistently outperforms penalty-based handling of invalid actions, yet existing theory only shows that masking preserves the policy gradient theorem. We identify a distinct failure mode of unmasked training: it systematically suppresses valid actions at states the agent has not yet visited. This occurs because gradients pushing down invalid actions at visited states propagate through shared network parameters to unvisited states where those actions are valid. We prove that for softmax policies with shared features, when an action is invalid at visited states but valid at an unvisited state $s^*$, the probability $π(a \mid s^*)$ is bounded by exponential decay due to parameter sharing and the zero-sum identity of softmax logits. This bound reveals that entropy regularization trades off between protecting valid actions and sample efficiency, a tradeoff that masking eliminates. We validate empirically that deep networks exhibit the feature alignment condition required for suppression, and experiments on Craftax, Craftax-Classic, and MiniHack confirm the predicted exponential suppression and demonstrate that feasibility classification enables deployment without oracle masks.
- Abstract(参考訳): 状態依存的な行動妥当性を持つ強化学習環境では、行動マスキングは不当行為のペナルティに基づく処理を一貫して上回っているが、既存の理論では、マスキングは政策勾配定理を保っているだけである。
エージェントがまだ訪れていない状態における有効な動作を体系的に抑制する。
これは、訪問した状態における無効なアクションを押し下げる勾配が、共有されたネットワークパラメータを通して、それらのアクションが有効である訪問されていない状態に伝播するためである。
共有特徴を持つソフトマックスポリシーの場合、訪問状態において作用が無効であるが、訪問状態$s^*$で有効である場合、確率$π(a \mid s^*)$はパラメータ共有とソフトマックスロジットのゼロサム恒等式によって指数減衰によって制限される。
この境界は、エントロピー正則化が有効な行動とサンプル効率の間のトレードオフであり、マスキングが排除するトレードオフであることを示している。
我々は、深層ネットワークが抑制に必要な特徴アライメント条件を示すことを実証的に検証し、Craftax、Craftax-Classic、MiniHackの実験により予測された指数的抑圧が確認され、実現可能性の分類がオラクルマスクを使わずに展開可能であることを示す。
関連論文リスト
- Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Greedy Is Enough: Sparse Action Discovery in Agentic LLMs [11.62669179647184]
経験的証拠は、少数のアクションだけが、所定のデプロイメントのパフォーマンスに有意義に影響を及ぼすことを示唆している。
この観察によって動機づけられた行動が構造化された空間性仮定によって制御される文脈線形報酬モデルについて検討する。
本研究は,スパース行動発見を大アクション意思決定の基礎となる基本原理とみなす。
論文 参考訳(メタデータ) (2026-01-13T07:15:32Z) - Verifiable Dropout: Turning Randomness into a Verifiable Claim [1.7476019497926718]
ゼロ知識証明に基づくプライバシー保護機構であるVerifiable Dropoutを導入する。
提案手法は, ドロップアウトマスクを決定論的, 暗号的にシードに結合し, ドロップアウト動作の正しい実行を証明している。
この設計は、ユーザーがトレーニング手順の整合性を監査し、ランダムさがバイアスでもチェリーピックでもないことを保証します。
論文 参考訳(メタデータ) (2025-12-27T09:14:35Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - Imperceptible Face Forgery Attack via Adversarial Semantic Mask [59.23247545399068]
本稿では, 対向性, 可視性に優れた対向性例を生成できるASMA(Adversarial Semantic Mask Attack framework)を提案する。
具体的には, 局所的なセマンティック領域の摂動を抑制し, 良好なステルス性を実現する, 対向型セマンティックマスク生成モデルを提案する。
論文 参考訳(メタデータ) (2024-06-16T10:38:11Z) - Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery
Detection [118.37239586697139]
LipForensicsは、操作の一般化と様々な歪みに耐えられる検出アプローチである。
視覚的音声認識(リリーディング)を行うために、初めて時間ネットワークを事前訓練する。
その後、リアルタイムおよび偽造データの固定された口埋め込みに時間的ネットワークを微調整し、低レベルな操作固有のアーティファクトに過度に適合することなく、口の動きに基づいて偽のビデオを検出する。
論文 参考訳(メタデータ) (2020-12-14T15:53:56Z) - MixNet for Generalized Face Presentation Attack Detection [63.35297510471997]
我々は、プレゼンテーションアタックを検出するための、TextitMixNetと呼ばれるディープラーニングベースのネットワークを提案している。
提案アルゴリズムは最先端の畳み込みニューラルネットワークアーキテクチャを利用して,各攻撃カテゴリの特徴マッピングを学習する。
論文 参考訳(メタデータ) (2020-10-25T23:01:13Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - A Closer Look at Invalid Action Masking in Policy Gradient Algorithms [0.0]
ディープ強化学習アルゴリズムは、多くの挑戦的な戦略ゲームにおいて最先端のパフォーマンスを達成した。
これらのゲームには複雑なルールがあるため、学習ポリシーによって予測される完全な離散的なアクション分布からサンプリングされたアクションは、ゲームルールに従って無効になる可能性が高い。
ポリシー勾配アルゴリズムでこの問題に対処する一般的なアプローチは、無効なアクションを"マスクアウト"し、有効なアクションのセットからのみサンプリングすることです。
論文 参考訳(メタデータ) (2020-06-25T04:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。