論文の概要: Residual Overfit Method of Exploration
- arxiv url: http://arxiv.org/abs/2110.02919v1
- Date: Wed, 6 Oct 2021 17:05:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:38:45.102151
- Title: Residual Overfit Method of Exploration
- Title(参考訳): 探査の残留オーバーフィット法
- Authors: James McInerney, Nathan Kallus
- Abstract要約: 提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。
このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
- 参考スコア(独自算出の注目度): 78.07532520582313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration is a crucial aspect of bandit and reinforcement learning
algorithms. The uncertainty quantification necessary for exploration often
comes from either closed-form expressions based on simple models or resampling
and posterior approximations that are computationally intensive. We propose
instead an approximate exploration methodology based on fitting only two point
estimates, one tuned and one overfit. The approach, which we term the residual
overfit method of exploration (ROME), drives exploration towards actions where
the overfit model exhibits the most overfitting compared to the tuned model.
The intuition is that overfitting occurs the most at actions and contexts with
insufficient data to form accurate predictions of the reward. We justify this
intuition formally from both a frequentist and a Bayesian information theoretic
perspective. The result is a method that generalizes to a wide variety of
models and avoids the computational overhead of resampling or posterior
approximations. We compare ROME against a set of established contextual bandit
methods on three datasets and find it to be one of the best performing.
- Abstract(参考訳): 探索は、バンディットと強化学習アルゴリズムの重要な側面である。
探索に必要な不確かさの定量化は、しばしば単純なモデルに基づく閉形式式か、計算集約的な後方近似によるものである。
代わりに,2点推定と1点調整と1点オーバーフィットのみに基づく近似探索手法を提案する。
この手法は、残留過適合探索法(ROME)と呼ばれ、過適合モデルが調整されたモデルと比較して最も過適合を示す行動に向けて探索を進める。
直感的には、オーバーフィッティングは、報酬の正確な予測を形成するのに不十分なデータを持つ行動や文脈において最も多く発生する。
我々はこの直観を、頻度主義とベイズ情報理論の両方の観点から正式に正当化する。
結果は、様々なモデルに一般化し、再サンプリングや後続近似の計算オーバーヘッドを回避する方法である。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
関連論文リスト
- Likelihood approximations via Gaussian approximate inference [3.4991031406102238]
ガウス密度による非ガウス確率の影響を近似する効率的なスキームを提案する。
その結果,大規模な点推定および分布推定設定における二進分類と多進分類の近似精度が向上した。
副産物として,提案した近似ログ類似度は,ニューラルネットワーク分類のためのラベルの最小二乗よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T05:39:26Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders [22.77397537980102]
我々は,真のモデルの後部の決定論的,モデルに依存しない後部近似(MAPA)を計算可能であることを示す。
我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。
論文 参考訳(メタデータ) (2024-03-13T20:16:21Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z) - Posterior and Computational Uncertainty in Gaussian Processes [52.26904059556759]
ガウスのプロセスはデータセットのサイズとともに違法にスケールする。
多くの近似法が開発されており、必然的に近似誤差を導入している。
この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。
本研究では,観測された有限個のデータと有限個の計算量の両方から生じる組合せ不確実性を一貫した推定を行う手法の開発を行う。
論文 参考訳(メタデータ) (2022-05-30T22:16:25Z) - Deep Learning Methods for Proximal Inference via Maximum Moment
Restriction [0.0]
深層ニューラルネットワークに基づくフレキシブルでスケーラブルな手法を導入し,不測の共起の存在による因果効果を推定する。
提案手法は,2つの確立された近位推定ベンチマークにおいて,技術性能の状態を達成している。
論文 参考訳(メタデータ) (2022-05-19T19:51:42Z) - Mean-Field Approximation to Gaussian-Softmax Integral with Application
to Uncertainty Estimation [23.38076756988258]
ディープニューラルネットワークにおける不確実性を定量化するための,新しい単一モデルに基づくアプローチを提案する。
平均場近似式を用いて解析的に難解な積分を計算する。
実験的に,提案手法は最先端の手法と比較して競合的に機能する。
論文 参考訳(メタデータ) (2020-06-13T07:32:38Z) - Efficiently Sampling Functions from Gaussian Process Posteriors [76.94808614373609]
高速後部サンプリングのための簡易かつ汎用的なアプローチを提案する。
分離されたサンプルパスがガウス過程の後部を通常のコストのごく一部で正確に表現する方法を実証する。
論文 参考訳(メタデータ) (2020-02-21T14:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。