論文の概要: Off-Policy Learning in Large Action Spaces: Optimization Matters More Than Estimation
- arxiv url: http://arxiv.org/abs/2509.03456v1
- Date: Wed, 03 Sep 2025 16:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.594857
- Title: Off-Policy Learning in Large Action Spaces: Optimization Matters More Than Estimation
- Title(参考訳): 大規模行動空間におけるオフポリティ学習 : 最適化は推定以上に重要である
- Authors: Imad Aouali, Otmane Sakhi,
- Abstract要約: オフ政治評価(OPE)とオフ政治学習(OPL)は、オフライン文脈における意思決定の基礎となる。
OPLの最近の進歩は、統計特性を改善したOPE推定器を最適化している。
この推定器中心のアプローチは、最適化ランドスケープに挑戦する、重要な現実的な障害を無視している、と我々は主張する。
- 参考スコア(独自算出の注目度): 6.001574550157585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation (OPE) and off-policy learning (OPL) are foundational for decision-making in offline contextual bandits. Recent advances in OPL primarily optimize OPE estimators with improved statistical properties, assuming that better estimators inherently yield superior policies. Although theoretically justified, we argue this estimator-centric approach neglects a critical practical obstacle: challenging optimization landscapes. In this paper, we provide theoretical insights and extensive empirical evidence showing that current OPL methods encounter severe optimization issues, particularly as action spaces become large. We demonstrate that simpler weighted log-likelihood objectives enjoy substantially better optimization properties and still recover competitive, often superior, learned policies. Our findings emphasize the necessity of explicitly addressing optimization considerations in the development of OPL algorithms for large action spaces.
- Abstract(参考訳): オフ政治評価(OPE)とオフ政治学習(OPL)は、オフライン文脈における意思決定の基礎となる。
OPLの最近の進歩は、より優れた推定器が本質的に優れたポリシーをもたらすと仮定して、統計特性を改善したOPE推定器を最適化している。
理論上は正当化されているが、この推定器中心のアプローチは重要な現実的な障害を無視している、と我々は主張する。
本稿では,現在のOPL手法が,特にアクション空間が大きくなるにつれて,深刻な最適化問題に直面することを示す理論的知見と広範な実証的証拠を提供する。
より単純な重み付けされたログライクな目的は、かなり優れた最適化特性を享受し、競争力があり、しばしば優れた学習ポリシーを回復することを示した。
本研究は,大規模行動空間のためのOPLアルゴリズムの開発において,最適化の考慮事項を明確化することの必要性を強調した。
関連論文リスト
- On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - AAPO: Enhance the Reasoning Capabilities of LLMs with Advantage Momentum [45.135858299101386]
大規模言語モデル(LLM)の推論能力を高める効果的なアプローチとして強化学習(RL)が登場している。
グループ相対的優位性推定は、値モデルへの依存性を排除したことでかなりの注目を集めている。
本稿では,モーメントに基づく推定手法によって強化された利点を用いて,クロスエントロピー損失を最適化する新しいRLアルゴリズムであるAdvantage-Augmented Policy Optimization (AAPO)を提案する。
論文 参考訳(メタデータ) (2025-05-20T12:13:44Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Pessimistic Off-Policy Multi-Objective Optimization [22.525654101072252]
既存のポリシーによって収集されたデータから,多目的ポリシーのオフライン最適化について検討する。
本稿では,多目的ポリシー値に対する悲観的推定器を提案する。
論文 参考訳(メタデータ) (2023-10-28T06:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。