論文の概要: Residual Overfit Method of Exploration
- arxiv url: http://arxiv.org/abs/2110.02919v1
- Date: Wed, 6 Oct 2021 17:05:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:38:45.102151
- Title: Residual Overfit Method of Exploration
- Title(参考訳): 探査の残留オーバーフィット法
- Authors: James McInerney, Nathan Kallus
- Abstract要約: 提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。
このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
- 参考スコア(独自算出の注目度): 78.07532520582313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration is a crucial aspect of bandit and reinforcement learning
algorithms. The uncertainty quantification necessary for exploration often
comes from either closed-form expressions based on simple models or resampling
and posterior approximations that are computationally intensive. We propose
instead an approximate exploration methodology based on fitting only two point
estimates, one tuned and one overfit. The approach, which we term the residual
overfit method of exploration (ROME), drives exploration towards actions where
the overfit model exhibits the most overfitting compared to the tuned model.
The intuition is that overfitting occurs the most at actions and contexts with
insufficient data to form accurate predictions of the reward. We justify this
intuition formally from both a frequentist and a Bayesian information theoretic
perspective. The result is a method that generalizes to a wide variety of
models and avoids the computational overhead of resampling or posterior
approximations. We compare ROME against a set of established contextual bandit
methods on three datasets and find it to be one of the best performing.
- Abstract(参考訳): 探索は、バンディットと強化学習アルゴリズムの重要な側面である。
探索に必要な不確かさの定量化は、しばしば単純なモデルに基づく閉形式式か、計算集約的な後方近似によるものである。
代わりに,2点推定と1点調整と1点オーバーフィットのみに基づく近似探索手法を提案する。
この手法は、残留過適合探索法(ROME)と呼ばれ、過適合モデルが調整されたモデルと比較して最も過適合を示す行動に向けて探索を進める。
直感的には、オーバーフィッティングは、報酬の正確な予測を形成するのに不十分なデータを持つ行動や文脈において最も多く発生する。
我々はこの直観を、頻度主義とベイズ情報理論の両方の観点から正式に正当化する。
結果は、様々なモデルに一般化し、再サンプリングや後続近似の計算オーバーヘッドを回避する方法である。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
関連論文リスト
- In-Context Parametric Inference: Point or Distribution Estimators? [66.22308335324239]
償却点推定器は一般に後部推論より優れているが、後者は低次元問題では競争力がある。
実験の結果, 償却点推定器は一般に後部推定より優れているが, 後者は低次元問題では競争力があることがわかった。
論文 参考訳(メタデータ) (2025-02-17T10:00:24Z) - Predictive Coresets [0.0]
従来のコアセットアプローチは、フルデータセットと重み付きデータセットの確率関数間のクルバック・リーバーの偏差を最小化することで重みを決定する。
そこで本研究では,ランダム化後続法を用いて,未知の後方予測分布に一致した重みを求める方法を提案する。
ランダムな分割や密度推定を含む多種多様な問題に対して,提案したコアセット構築の性能を評価する。
論文 参考訳(メタデータ) (2025-02-08T23:57:43Z) - Likelihood approximations via Gaussian approximate inference [3.4991031406102238]
ガウス密度による非ガウス確率の影響を近似する効率的なスキームを提案する。
その結果,大規模な点推定および分布推定設定における二進分類と多進分類の近似精度が向上した。
副産物として,提案した近似ログ類似度は,ニューラルネットワーク分類のためのラベルの最小二乗よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T05:39:26Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders [22.77397537980102]
我々は,真のモデルの後部の決定論的,モデルに依存しない後部近似(MAPA)を計算可能であることを示す。
我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。
論文 参考訳(メタデータ) (2024-03-13T20:16:21Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z) - Deep Learning Methods for Proximal Inference via Maximum Moment
Restriction [0.0]
深層ニューラルネットワークに基づくフレキシブルでスケーラブルな手法を導入し,不測の共起の存在による因果効果を推定する。
提案手法は,2つの確立された近位推定ベンチマークにおいて,技術性能の状態を達成している。
論文 参考訳(メタデータ) (2022-05-19T19:51:42Z) - Efficiently Sampling Functions from Gaussian Process Posteriors [76.94808614373609]
高速後部サンプリングのための簡易かつ汎用的なアプローチを提案する。
分離されたサンプルパスがガウス過程の後部を通常のコストのごく一部で正確に表現する方法を実証する。
論文 参考訳(メタデータ) (2020-02-21T14:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。