論文の概要: Adaptively Optimised Adaptive Importance Samplers
- arxiv url: http://arxiv.org/abs/2307.09341v1
- Date: Tue, 18 Jul 2023 15:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 14:03:12.960922
- Title: Adaptively Optimised Adaptive Importance Samplers
- Title(参考訳): 適応最適化アダプティブ・コンパプタンス・サンプリング
- Authors: Carlos A. C. C. Perello and \"Omer Deniz Akyildiz
- Abstract要約: 本稿では,AdaOAISと呼ばれる適応最適化ツールを活用した適応的重要度サンプリング手法を提案する。
我々は,OAIS(Optimized Adaptive Importance Samplers)という,重要サンプリング推定器の平均二乗誤差を改善するために提案に適応する手法のクラスを構築した。
勾配勾配勾配を用いたOAISの簡単な実装は, 収束保証にもかかわらず不安定な推定に繋がる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new class of adaptive importance samplers leveraging adaptive
optimisation tools, which we term AdaOAIS. We build on Optimised Adaptive
Importance Samplers (OAIS), a class of techniques that adapt proposals to
improve the mean-squared error of the importance sampling estimators by
parameterising the proposal and optimising the $\chi^2$-divergence between the
target and the proposal. We show that a naive implementation of OAIS using
stochastic gradient descent may lead to unstable estimators despite its
convergence guarantees. To remedy this shortcoming, we instead propose to use
adaptive optimisers (such as AdaGrad and Adam) to improve the stability of the
OAIS. We provide convergence results for AdaOAIS in a similar manner to OAIS.
We also provide empirical demonstration on a variety of examples and show that
AdaOAIS lead to stable importance sampling estimators in practice.
- Abstract(参考訳): 本稿では,AdaOAISと呼ばれる適応最適化ツールを活用した適応的重要度サンプリング手法を提案する。
提案手法は,提案をパラメータ化し,目標と提案の間の$\chi^2$-divergenceを最適化することにより,重要サンプリング推定器の平均二乗誤差を改善する手法であるOAIS(Optimized Adaptive Importance Samplers)に基づいて構築する。
確率的勾配降下を用いたoaisのナイーブな実装は,その収束保証にもかかわらず不安定な推定子をもたらす可能性がある。
この欠点を解消するために、我々はOAISの安定性を改善するために適応型オプティマイザ(AdaGradやAdamなど)を使うことを提案する。
我々は,AdaOAISに対して,OAISと同様の収束結果を提供する。
また,様々な事例について実証実験を行い,AdaOAISが実測値のサンプリングを安定的に行うことを示す。
関連論文リスト
- RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。
RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。
実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-16T12:54:34Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - DRAUC: An Instance-wise Distributionally Robust AUC Optimization
Framework [133.26230331320963]
ROC曲線のエリア(AUC)は、長い尾の分類のシナリオにおいて広く用いられている指標である。
本研究では,分散ロバストAUC(DRAUC)のインスタンスワイドサロゲート損失を提案し,その上に最適化フレームワークを構築した。
論文 参考訳(メタデータ) (2023-11-06T12:15:57Z) - Adaptive importance sampling for heavy-tailed distributions via
$\alpha$-divergence minimization [2.879807093604632]
提案手法は,学生の提案分布からターゲットを近似するAISアルゴリズムを提案する。
我々は、目標と提案の護衛モーメントを一致させて、位置とスケールパラメータを適応させる。
これらの更新は、ターゲットと提案の間の$alpha$-divergenceを最小化し、変動推論と接続する。
論文 参考訳(メタデータ) (2023-10-25T14:07:08Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - CausPref: Causal Preference Learning for Out-of-Distribution
Recommendation [36.22965012642248]
現在のレコメンデータシステムは、現実的なシナリオにおけるユーザやアイテムの配布シフトに対して、依然として脆弱である。
本稿では,推奨特化DAG学習者を因果選好に基づく推薦フレームワークCausPrefに組み込むことを提案する。
当社のアプローチは、アウト・オブ・ディストリビューション・セッティングのタイプにおいて、ベンチマークモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2022-02-08T16:42:03Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。