論文の概要: A Simpler Alternative to Variational Regularized Counterfactual Risk Minimization
- arxiv url: http://arxiv.org/abs/2409.09819v2
- Date: Sun, 13 Oct 2024 21:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 20:46:36.414653
- Title: A Simpler Alternative to Variational Regularized Counterfactual Risk Minimization
- Title(参考訳): 変分正規化対実リスク最小化の簡易化
- Authors: Hua Chang Bakker, Shashank Gupta, Harrie Oosterhuis,
- Abstract要約: 本稿では,f$-GAN に基づく下界ではなく,f-divergence の直接近似を最小化することで,f-divergence 最適化の新たな選択肢を提案する。
実験の結果,$f$-GANを用いた分散の最小化は期待通りには機能しないことがわかった。
- 参考スコア(独自算出の注目度): 15.285104949486964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variance regularized counterfactual risk minimization (VRCRM) has been proposed as an alternative off-policy learning (OPL) method. VRCRM method uses a lower-bound on the $f$-divergence between the logging policy and the target policy as regularization during learning and was shown to improve performance over existing OPL alternatives on multi-label classification tasks. In this work, we revisit the original experimental setting of VRCRM and propose to minimize the $f$-divergence directly, instead of optimizing for the lower bound using a $f$-GAN approach. Surprisingly, we were unable to reproduce the results reported in the original setting. In response, we propose a novel simpler alternative to f-divergence optimization by minimizing a direct approximation of f-divergence directly, instead of a $f$-GAN based lower bound. Experiments showed that minimizing the divergence using $f$-GANs did not work as expected, whereas our proposed novel simpler alternative works better empirically.
- Abstract(参考訳): 分散正規化対実リスク最小化(VRCRM)は、代替のオフ・ポリシー・ラーニング(OPL)手法として提案されている。
VRCRM法は,学習中の正規化としてログポリシと対象ポリシの$f$-divergenceの低い値を用いており,マルチラベル分類タスクにおける既存のOPL代替よりも性能が向上することが示されている。
本研究では,VRCRMの当初の実験的な設定を再考し,$f$-divergenceを直接最小化することを提案し,$f$-GANアプローチを用いて下位境界を最適化する。
意外なことに、元の設定で報告された結果を再現できなかったのです。
そこで本研究では,f$-GAN に基づく下界ではなく,f-divergence の直接近似を最小化することで,f-divergence 最適化の新たな選択肢を提案する。
実験の結果,$f$-GANを用いた分散の最小化は期待通りには機能しないことがわかった。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
基本方針と最良$n$ポリシーのKL分散は、$log (n) - (n-1)/n.$と等しいことを示す。
KLの発散に対する新しい推定器を提案し、いくつかの例を通して厳密な近似を与えることを実証的に示す。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Efficient Stochastic Approximation of Minimax Excess Risk Optimization [36.68685001551774]
我々はMEROを直接対象とする効率的な近似手法を開発した。
最小リスクの推定誤差に起因するバイアスが制御下にあることを示す。
また,各分布から抽出したサンプルの量が異なる場合の現実的シナリオについても検討し,分布依存収束率を導出する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T02:21:11Z) - A Model-Based Method for Minimizing CVaR and Beyond [7.751691910877239]
CVaR(Conditional Value-at-Risk)目標の最小化のために, Prox-linear 法の変種を開発した。
CVaRは最悪のケースのパフォーマンスを最小化することに焦点を当てたリスク尺度であり、損失の最上位量の平均として定義される。
機械学習では、そのようなリスク尺度はより堅牢なモデルをトレーニングするのに有用である。
論文 参考訳(メタデータ) (2023-05-27T15:38:53Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。
本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。
もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文 参考訳(メタデータ) (2022-08-18T06:42:49Z) - Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement
Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。
我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。
政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-15T08:32:53Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Minimum discrepancy principle strategy for choosing $k$ in $k$-NN regression [2.0411082897313984]
保持データを用いずに、$k$-NN回帰推定器でハイパーパラメータ$k$を選択するための新しいデータ駆動戦略を提案する。
本稿では,早期停止と最小一致原理に基づく実践的戦略を実践的に容易に導入することを提案する。
論文 参考訳(メタデータ) (2020-08-20T00:13:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。