論文の概要: Making RL with Preference-based Feedback Efficient via Randomization
- arxiv url: http://arxiv.org/abs/2310.14554v1
- Date: Mon, 23 Oct 2023 04:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 22:52:07.470062
- Title: Making RL with Preference-based Feedback Efficient via Randomization
- Title(参考訳): ランダム化による優先型フィードバック効率RLの作成
- Authors: Runzhe Wu, Wen Sun
- Abstract要約: 人間のフィードバックから学習する強化学習アルゴリズムは、統計複雑性、計算複雑性、クエリ複雑性の点で効率的である必要がある。
サンプル効率のよいアルゴリズム(すなわち、ほぼ最適の後悔境界を持つ)と実行時間(すなわち、関連するパラメータに関して計算複雑性が最悪のもの)を示す。
特に,提案アルゴリズムは,後悔境界とクエリ複雑性のほぼ最適トレードオフを示す。
- 参考スコア(独自算出の注目度): 11.019088464664696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning algorithms that learn from human feedback (RLHF) need
to be efficient in terms of statistical complexity, computational complexity,
and query complexity. In this work, we consider the RLHF setting where the
feedback is given in the format of preferences over pairs of trajectories. In
the linear MDP model, by using randomization in algorithm design, we present an
algorithm that is sample efficient (i.e., has near-optimal worst-case regret
bounds) and has polynomial running time (i.e., computational complexity is
polynomial with respect to relevant parameters). Our algorithm further
minimizes the query complexity through a novel randomized active learning
procedure. In particular, our algorithm demonstrates a near-optimal tradeoff
between the regret bound and the query complexity. To extend the results to
more general nonlinear function approximation, we design a model-based
randomized algorithm inspired by the idea of Thompson sampling. Our algorithm
minimizes Bayesian regret bound and query complexity, again achieving a
near-optimal tradeoff between these two quantities. Computation-wise, similar
to the prior Thompson sampling algorithms under the regular RL setting, the
main computation primitives of our algorithm are Bayesian supervised learning
oracles which have been heavily investigated on the empirical side when
applying Thompson sampling algorithms to RL benchmark problems.
- Abstract(参考訳): 人間のフィードバック(RLHF)から学習する強化学習アルゴリズムは、統計複雑性、計算複雑性、クエリ複雑性の点で効率的である必要がある。
本研究では,RLHF設定において,軌道のペアよりも好みの形式でフィードバックが与えられることを考察する。
線形mdpモデルでは、アルゴリズム設計にランダム化を用いることで、サンプル効率のよいアルゴリズム(すなわち、最適に近い最悪の場合の後悔領域を持つ)と多項式の実行時間(すなわち、計算複雑性は関連するパラメータに関して多項式である)を提案する。
提案アルゴリズムは,新しいランダム化能動的学習手法により,クエリの複雑さを最小化する。
特に,本アルゴリズムは,後悔境界とクエリ複雑性との最適に近いトレードオフを示す。
より一般的な非線形関数近似に拡張するために、トンプソンサンプリングのアイデアに触発されたモデルベースランダム化アルゴリズムを設計する。
我々のアルゴリズムはベイズ的後悔とクエリの複雑さを最小化し、これら2つの量間のほぼ最適なトレードオフを達成する。
正規RL設定における従来のトンプソンサンプリングアルゴリズムと同様に,本アルゴリズムの主な計算プリミティブはベイズ教師あり学習オラクルであり,トンプソンサンプリングアルゴリズムをRLベンチマーク問題に適用する際の経験的側面について深く研究されている。
関連論文リスト
- More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling [41.21199687865359]
最近提案されたFeel-Good Thompson Sampling (FGTS) アプローチを用いて,様々な近似サンプリング手法を組み込んだアルゴリズムフレームワークを提案する。
我々の後悔分析は、既存のランダム化アルゴリズムを超越した次元性への後悔の最もよく知られた依存性をもたらす。
我々のアルゴリズムは、RLの深い文献から得られる他の強いベースラインに匹敵する、あるいは同等の性能を達成する。
論文 参考訳(メタデータ) (2024-06-18T03:32:10Z) - Replicable Learning of Large-Margin Halfspaces [46.91303295440005]
我々は,大マージンハーフスペースを学習する問題に対して,効率的なアルゴリズムを提供する。
Impagliazzo, Lei, Pitassi, Sorrellによるアルゴリズム [STOC 2022] の改良を行った。
論文 参考訳(メタデータ) (2024-02-21T15:06:51Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - On Thompson Sampling with Langevin Algorithms [106.78254564840844]
多武装バンディット問題に対するトンプソンサンプリングは理論と実践の両方において良好な性能を享受する。
計算上のかなりの制限に悩まされており、反復ごとに後続分布からのサンプルを必要とする。
本稿では,この問題に対処するために,トンプソンサンプリングに適した2つのマルコフ連鎖モンテカルロ法を提案する。
論文 参考訳(メタデータ) (2020-02-23T22:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。