論文の概要: Efficient Exploration at Scale
- arxiv url: http://arxiv.org/abs/2603.17378v1
- Date: Wed, 18 Mar 2026 05:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.526281
- Title: Efficient Exploration at Scale
- Title(参考訳): スケールでの効率的な探索
- Authors: Seyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla, Xiuyuan Lu, Mehdi Jafarnia, Victor Minden, Zheng Wen, Benjamin Van Roy,
- Abstract要約: 我々は,人間からのフィードバックから強化学習のデータ効率を劇的に向上させるオンライン学習アルゴリズムを開発した。
Gemmaの大規模言語モデル(LLM)では,20K未満のラベルを用いて200KラベルでトレーニングされたオフラインRLHFの性能と一致した。
この結果から,1BラベルでトレーニングされたオフラインRLHFに一致するように,100Mラベルでトレーニングされたアルゴリズムが期待できる。
- 参考スコア(独自算出の注目度): 14.21513079377516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop an online learning algorithm that dramatically improves the data efficiency of reinforcement learning from human feedback (RLHF). Our algorithm incrementally updates reward and language models as choice data is received. The reward model is fit to the choice data, while the language model is updated by a variation of reinforce, with reinforcement signals provided by the reward model. Several features enable the efficiency gains: a small affirmative nudge added to each reinforcement signal, an epistemic neural network that models reward uncertainty, and information-directed exploration. With Gemma large language models (LLMs), our algorithm matches the performance of offline RLHF trained on 200K labels using fewer than 20K labels, representing more than a 10x gain in data efficiency. Extrapolating from our results, we expect our algorithm trained on 1M labels to match offline RLHF trained on 1B labels. This represents a 1,000x gain. To our knowledge, these are the first results to demonstrate that such large improvements are possible.
- Abstract(参考訳): 本研究では,人間フィードバック(RLHF)による強化学習のデータ効率を劇的に向上させるオンライン学習アルゴリズムを開発した。
我々のアルゴリズムは、選択データを受け取ると報酬と言語モデルを漸進的に更新する。
報酬モデルは選択データに適合し、言語モデルは強化のバリエーションによって更新され、報酬モデルによって強化信号が提供される。
それぞれの強化信号に小さな肯定的なヌッジ、報酬の不確実性をモデル化するてんかん神経回路、情報指向探索など、いくつかの特徴がある。
Gemmaの大規模言語モデル(LLMs)では,20K未満のラベルを用いて200KラベルでトレーニングされたオフラインRLHFの性能と一致し,データ効率が10倍以上向上した。
この結果から,1BラベルでトレーニングされたオフラインRLHFに一致するように,100Mラベルでトレーニングされたアルゴリズムが期待できる。
これは1000倍の利得である。
私たちの知る限り、これらはこのような大きな改善が可能であることを示す最初の結果です。
関連論文リスト
- Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals [49.17123504516502]
大規模言語モデル(LLM)のためのRFTパラダイムは、均一なデータサンプリングの下で同じクエリが冗長に露出するため、効率が悪い。
グラディエント駆動型アングルインフォームドナビゲーションRLフレームワークを提案する。
モデル固有の角度集中信号を利用することで、GAIN-RLは各エポックにおけるトレーニングデータを動的に選択し、一貫したインパクトのある勾配更新を確実にする。
論文 参考訳(メタデータ) (2025-06-02T21:40:38Z) - Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback [12.7099489697479]
本稿では、推論タスク検証器(RTV)と生成報酬モデル(GenRM)を組み合わせたハイブリッド報酬システムを導入し、報酬ハッキングを緩和する。
また,応答の多様性を維持し,学習効率を高めるために,新しいプロンプト選択手法であるPre-PPOを提案する。
論文 参考訳(メタデータ) (2025-03-28T08:26:41Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。
オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。
本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - Reward Modeling with Weak Supervision for Language Models [12.599789817157188]
この研究は、RLHFデータセットを拡張し、報酬モデルのパフォーマンスを向上させる戦略として、弱い監視を導入する。
RLHFデータセットを解析して不正確な応答を識別することにより、簡単なラベル付け関数を作成し、ラベルモデルを弱いラベル付きデータに校正した。
評価の結果,報酬モデルの性能を向上することで,弱い監視がより小さなデータセットに大きく貢献するが,その効果はより大きくラベル付けされたデータセットで減少することがわかった。
論文 参考訳(メタデータ) (2024-10-28T09:37:58Z) - Iterative Data Smoothing: Mitigating Reward Overfitting and
Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。
学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。
本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文 参考訳(メタデータ) (2024-01-29T17:43:42Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Ensembling Off-the-shelf Models for GAN Training [55.34705213104182]
事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。
本研究では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を検証し,効率的な選択機構を提案する。
本手法は, 限られたデータと大規模設定の両方において, GAN トレーニングを改善することができる。
論文 参考訳(メタデータ) (2021-12-16T18:59:50Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。