論文の概要: Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.02353v1
- Date: Wed, 04 Mar 2026 22:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.331496
- Title: Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning
- Title(参考訳): Prism:強化学習における解釈可能な戦略マッピングによる政策再利用
- Authors: Thomas Pravetz,
- Abstract要約: PRISMは、強化学習エージェントの判断を、個別かつ因果的に検証された概念に基礎付けるフレームワークである。
PRISMは各エージェントのエンコーダをK-means経由で$K$のコンセプトにクラスタする。
概念は戦略を因果的にエンコードするので、最適な二部マッチングを通じてそれらを整列させることは戦略的知識をゼロショットにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PRISM (Policy Reuse via Interpretable Strategy Mapping), a framework that grounds reinforcement learning agents' decisions in discrete, causally validated concepts and uses those concepts as a zero-shot transfer interface between agents trained with different algorithms. PRISM clusters each agent's encoder features into $K$ concepts via K-means. Causal intervention establishes that these concepts directly drive - not merely correlate with - agent behavior: overriding concept assignments changes the selected action in 69.4% of interventions ($p = 8.6 \times 10^{-86}$, 2500 interventions). Concept importance and usage frequency are dissociated: the most-used concept (C47, 33.0% frequency) causes only a 9.4% win-rate drop when ablated, while ablating C16 (15.4% frequency) collapses win rate from 100% to 51.8%. Because concepts causally encode strategy, aligning them via optimal bipartite matching transfers strategic knowledge zero-shot. On Go~7$\times$7 with three independently trained agents, concept transfer achieves 69.5%$\pm$3.2% and 76.4%$\pm$3.4% win rate against a standard engine across the two successful transfer pairs (10 seeds), compared to 3.5% for a random agent and 9.2% without alignment. Transfer succeeds when the source policy is strong; geometric alignment quality predicts nothing ($R^2 \approx 0$). The framework is scoped to domains where strategic state is naturally discrete: the identical pipeline on Atari Breakout yields bottleneck policies at random-agent performance, confirming that the Go results reflect a structural property of the domain.
- Abstract(参考訳): PRISM(Policy Reuse via Interpretable Strategy Mapping)は、強化学習エージェントの判断を個別に因果的に検証し、異なるアルゴリズムで訓練されたエージェント間のゼロショット転送インターフェースとして使用するフレームワークである。
PRISMは各エージェントのエンコーダをK-means経由で$K$のコンセプトにクラスタする。
因果的介入 (Causal intervention) は、これらの概念が直接的(単にエージェントの行動と相関するわけではない)であることを示す: オーバーライドされた概念割り当ては、69.4%の介入(p = 8.6 \times 10^{-86}$, 2500の介入)で選択された行動を変更する。
最もよく使われる概念(C47, 33.0%の周波数)は、アブレーション時に9.4%の勝利率低下しか起こさないのに対し、C16(15.4%の周波数)は100%から51.8%の勝利率で崩壊する。
概念は戦略を因果的にエンコードするので、最適な二部マッチングを通じてそれらを整列させることは戦略的知識をゼロショットにする。
3つの独立したエージェントを持つGo~7$\times$7では、コンセプトトランスファーは69.5%$\pm$3.2%、76.4%$\pm$3.4%で、2つの成功したトランスファーペア(10種)の標準エンジンに対して勝利し、ランダムエージェントは3.5%、アライメントなしで9.2%となっている。
転送はソースポリシーが強いときに成功し、幾何学的アライメントの品質は何も予測しない(R^2 \approx 0$)。
Atari Breakoutの同一パイプラインはランダムエージェントのパフォーマンスでボトルネックポリシーを生成し、Goの結果がドメインの構造的特性を反映していることを確認する。
関連論文リスト
- See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection [51.59559387222532]
エンドツーエンド自動運転の最近の進歩は、パッチアライメント機能で訓練されたポリシーが、アウト・オブ・ディストリビューション(OOD)よりも一般化していることを示している。
我々は、より堅牢で、一般化可能で、効率的な学習ポリシーのためのシンプルで効果的なアプローチである2.4-Patch-Selection(SPS)を提案する。
論文 参考訳(メタデータ) (2026-01-15T18:58:33Z) - BEDA: Belief Estimation as Probabilistic Constraints for Performing Strategic Dialogue Acts [69.7477004390211]
我々は2つの中核的行為を形式化し、エージェントが生成する可能性のある確率的制約によってそれらを運用する。
我々は,このアイデアを,世界集合と信念推定のための信念推定器と,推論された信念と整合した発話を選択・実現する条件生成器とからなる枠組みであるBEDAでインスタンス化する。
論文 参考訳(メタデータ) (2025-12-31T14:26:55Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Learning When to Switch: Adaptive Policy Selection via Reinforcement Learning [0.0]
この研究は、エージェントが系統的な探索(カバレッジ)と目標指向のパスフィニング(収束)を動的に移行してタスクのパフォーマンスを向上させる方法を示す。
固定閾値アプローチとは異なり、エージェントはQラーニングを使用して、カバレッジパーセンテージと目標までの距離に基づいてスイッチング行動に適応する。
その結果、完了時間が23~55%改善され、ランタイムの分散が83%減少し、最悪のシナリオでは71%改善した。
論文 参考訳(メタデータ) (2025-12-06T02:50:32Z) - Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。