論文の概要: $\mathbf{(N,K)}$-Puzzle: A Cost-Efficient Testbed for Benchmarking
Reinforcement Learning Algorithms in Generative Language Model
- arxiv url: http://arxiv.org/abs/2403.07191v1
- Date: Mon, 11 Mar 2024 22:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:34:50.558695
- Title: $\mathbf{(N,K)}$-Puzzle: A Cost-Efficient Testbed for Benchmarking
Reinforcement Learning Algorithms in Generative Language Model
- Title(参考訳): $\mathbf{(N,K)}$-Puzzle: 生成言語モデルにおける強化学習アルゴリズムのベンチマークのための費用効率の良いテストベッド
- Authors: Yufeng Zhang, Liyu Chen, Boyi Liu, Yingxiang Yang, Qiwen Cui, Yunzhe
Tao, Hongxia Yang
- Abstract要約: 我々は24-Puzzleの一般化版を提示する:$(N,K)$-Puzzle。
我々は、アイデンティティポリシー最適化(IPO)やダイレクトポリシー最適化(DPO)といった新しいアプローチとともに、PPO(Proximal Policy Optimization)のような確立されたRLアルゴリズムの有効性を評価する。
- 参考スコア(独自算出の注目度): 50.636423457653066
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent advances in reinforcement learning (RL) algorithms aim to enhance the
performance of language models at scale. Yet, there is a noticeable absence of
a cost-effective and standardized testbed tailored to evaluating and comparing
these algorithms. To bridge this gap, we present a generalized version of the
24-Puzzle: the $(N,K)$-Puzzle, which challenges language models to reach a
target value $K$ with $N$ integers. We evaluate the effectiveness of
established RL algorithms such as Proximal Policy Optimization (PPO), alongside
novel approaches like Identity Policy Optimization (IPO) and Direct Policy
Optimization (DPO).
- Abstract(参考訳): 近年の強化学習(RL)アルゴリズムは,大規模言語モデルの性能向上を目的としている。
しかし、これらのアルゴリズムの評価と比較に合わせたコスト効率と標準化されたテストベッドがないことは明らかである。
このギャップを埋めるために、24-Puzzleの一般化版を提示する: $(N,K)$-Puzzle。
本稿では,PPO (Proximal Policy Optimization) などの確立されたRLアルゴリズムの有効性を,IPO (Identity Policy Optimization) やDPO (Direct Policy Optimization) といった新しいアプローチとともに評価する。
関連論文リスト
- Reinforcement Learning from Human Feedback with Active Queries [67.27150911254155]
現在の強化学習アプローチは、多くの場合、大量の人間による嗜好データを必要とする。
本稿では,能動学習の成功に触発されたクエリ効率の高いRLHF手法を提案する。
実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端のDPO法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T18:58:40Z) - Algorithm Evolution Using Large Language Model [18.03090066194074]
大規模言語モデル(AEL)を用いた進化的アルゴリズムを提案する。
AELはモデルトレーニングなしでアルゴリズムレベルの進化を行う。
人間の努力とドメイン知識の要求は大幅に削減できる。
論文 参考訳(メタデータ) (2023-11-26T09:38:44Z) - Model-Free Algorithm with Improved Sample Efficiency for Zero-Sum Markov
Games [71.0315408565146]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - An Empirical Study of Derivative-Free-Optimization Algorithms for
Targeted Black-Box Attacks in Deep Neural Networks [8.368543987898732]
本稿では,BOBYQAに基づく新しいアルゴリズムの導入とともに,既存のDFOベースの4つのアルゴリズムについて考察する。
我々は、これらのアルゴリズムを様々な設定で比較し、それらを誤分類した画像の数に応じて比較する。
実験では、敵の例を見つける確率が、使用されるアルゴリズムと攻撃の設定の両方に依存するかを明らかにする。
論文 参考訳(メタデータ) (2020-12-03T13:32:20Z) - A Model-free Learning Algorithm for Infinite-horizon Average-reward MDPs
with Near-optimal Regret [44.374427255708135]
無限水平平均逆マルコフ決定過程(MDP)のモデルフリーアルゴリズムである探索強化Q-ラーニング(EE-QL)を提案する。
EE-QLは、最適平均報酬のオンライン集中近似が利用可能であると仮定する。
これは、エルゴード的な仮定なしに$O(sqrt T)$後悔を達成する最初のモデル自由学習アルゴリズムであり、対数的因子を除いて、下位境界の$T$と一致する。
論文 参考訳(メタデータ) (2020-06-08T05:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。