Fugu-MT 論文翻訳(概要): Evaluating Model-Free Policy Optimization in Masked-Action Environments via an Exact Blackjack Oracle

論文の概要: Evaluating Model-Free Policy Optimization in Masked-Action Environments via an Exact Blackjack Oracle

arxiv url: http://arxiv.org/abs/2603.18642v1
Date: Thu, 19 Mar 2026 09:08:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.051099
Title: Evaluating Model-Free Policy Optimization in Masked-Action Environments via an Exact Blackjack Oracle
Title（参考訳）: 排他的ブラックジャックOracleによるマスケ・アクション環境におけるモデルフリー政策最適化の評価
Authors: Kevin Song,
Abstract要約: 正確な動的プログラミング(DP)のオラクルは4600以上の標準決定セルから導出された。この実験では、地上信頼行動値、最適ポリシーラベル、理論期待値(EV)が1人あたり0.00161である。いずれの方法も重大な細胞条件の後悔を示し、ポリシーレベルのエラーを持続的に示していた。
参考スコア（独自算出の注目度）: 0.40611352512781873
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Infinite-shoe casino blackjack provides a rigorous, exactly verifiable benchmark for discrete stochastic control under dynamically masked actions. Under a fixed Vegas-style ruleset (S17, 3:2 payout, dealer peek, double on any two, double after split, resplit to four), an exact dynamic programming (DP) oracle was derived over 4,600 canonical decision cells. This oracle yielded ground-truth action values, optimal policy labels, and a theoretical expected value (EV) of -0.00161 per hand. To evaluate sample-efficient policy recovery, three model-free optimizers were trained via simulated interaction: masked REINFORCE with a per-cell exponential moving average baseline, simultaneous perturbation stochastic approximation (SPSA), and the cross-entropy method (CEM). REINFORCE was the most sample-efficient, achieving a 46.37% action-match rate and an EV of -0.04688 after 10^6 hands, outperforming CEM (39.46%, 7.5x10^6 evaluations) and SPSA (38.63%, 4.8x10^6 evaluations). However, all methods exhibited substantial cell-conditional regret, indicating persistent policy-level errors despite smooth reward convergence. This gap shows that tabular environments with severe state-visitation sparsity and dynamic action masking remain challenging, while aggregate reward curves can obscure critical local failures. As a negative control, it was proven and empirically confirmed that under i.i.d. draws without counting, optimal bet sizing collapses to the table minimum. In addition, larger wagers strictly increased volatility and ruin without improving expectation. These results highlight the need for exact oracles and negative controls to avoid mistaking stochastic variability for genuine algorithmic performance.
Abstract（参考訳）: Infinite-Shoe Casino Blackjackは、動的にマスクされた動作下での離散確率制御のための厳密で正確に検証可能なベンチマークを提供する。固定されたラスベガススタイルのルールセット(S17, 3:2ペイアウト、ディーラー・ピーク、いずれの2つでもダブル、分割後にダブル、リスプリット、リスプリット)の下で、正確な動的プログラミング(DP)のオラクルは4600以上の標準決定セルから派生した。このオラクルは、1ハンドあたり0.00161という理論的な期待値(EV)を得た。サンプル効率のよい政策回復を評価するために、3つのモデルフリーオプティマイザを模擬相互作用によりトレーニングした: セルごとの指数移動平均ベースラインをマスクしたREINFORCE、同時摂動確率近似(SPSA)、クロスエントロピー法(CEM)。 ReINFORCEは最も試料効率が良く、46.37%のアクションマッチ速度と10^6ハンドの後に-0.04688のEVを達成し、CEM(39.46%、7.5x10^6評価)とSPSA(38.63%、4.8x10^6評価)を上回った。しかし、全ての手法は、スムーズな報酬収束にもかかわらず、持続的な政策レベルのエラーを示す、実質的な細胞条件の後悔を示していた。このギャップは、厳密な状態視空間と動的行動マスキングを持つ表層環境が依然として困難であり、一方でアグリゲーション報酬曲線は重要な局所的障害を曖昧にしていることを示している。負の制御として、i.d.の下ではカウントすることなく、最適なベットサイズの崩壊が最小限に抑えられることが実証され実証された。さらに、大きな賃金は、予想を上回ることなく、ボラティリティと崩壊を厳格に増加させた。これらの結果は,真のアルゴリズム性能に対する確率的変動の誤認を回避するために,正確なオーラクルと負の制御の必要性を強調している。

関連論文リスト

$V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。 V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2026-03-11T14:57:41Z)
Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文参考訳（メタデータ） (2026-03-04T14:48:53Z)
ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文参考訳（メタデータ） (2026-02-27T05:22:01Z)
Regularized Meta-Learning for Improved Generalization [0.0]
正規化メタラーニングは、高次元アンサンブルシステムのための安定かつデプロイ効率の高いスタックング戦略である。 4段階のパイプラインは、冗長性を考慮したプロジェクション、統計的メタ機能拡張、およびクロスバリデーションされた正規化メタモデルを組み合わせる。 Playground Series S6E1ベンチマークでは、提案フレームワークは8.582のアウトオブフォールドRMSEを実現し、単純な平均(8.894)と従来のリッジ積み重ね(8.627)よりも改善し、グリーディヒルクライミング(8.603)とほぼ低ランタイム(8.603)とほぼ一致する(4倍高速)。
論文参考訳（メタデータ） (2026-02-12T22:55:32Z)
ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。 ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文参考訳（メタデータ） (2026-02-06T23:27:17Z)
Prompt Injection Evaluations: Refusal Boundary Instability and Artifact-Dependent Compliance in GPT-4-Series Models [0.0]
GPT-4.1 と GPT-4o の2つのモデルを評価する。アーティファクトタイプは摂動スタイルよりも断裂の予測が強いことが分かりました。断熱挙動は安定な二元性というよりは確率的であり, 人工物に依存した境界現象である。
論文参考訳（メタデータ） (2026-01-25T17:14:33Z)
Non-Convex Portfolio Optimization via Energy-Based Models: A Comparative Analysis Using the Thermodynamic HypergRaphical Model Library (THRML) for Index Tracking [0.0]
本稿では,確率的グラフィカルモデルの構築とサンプリングを行うJAXベースのライブラリである THRML (Thermodynamic HypergRaphical Model Library) を用いた新しいアプローチを提案する。 THRMLはGPU加速ブロックギブスサンプリングによる高品質なポートフォリオのボルツマン分布からのサンプルであり、オーバーフィッティングに対する自然な正規化を提供する。 2023年から2025年までの100ストックのSとP500の宇宙でのバックテストでは、THRMLは5.66から6.30%のベースラインに対して毎年4.31パーセントのトラッキングエラーを達成し、同時に128.63パーセントの総リターンを発生している。
論文参考訳（メタデータ） (2026-01-12T18:04:33Z)
Optimistic Feasible Search for Closed-Loop Fair Threshold Decision-Making [0.0]
バンディットフィードバックからの1次元しきい値ポリシーのオンライン学習について検討する。我々は,報酬と制約残差に対する信頼境界を維持する単純なグリッドベース手法であるOptimistic Feasible Search (OFS)を提案する。
論文参考訳（メタデータ） (2025-12-26T10:44:40Z)
Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。 ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文参考訳（メタデータ） (2025-07-09T14:29:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。