論文の概要: Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement
Learning with Diverse Human Feedback
- arxiv url: http://arxiv.org/abs/2402.02423v1
- Date: Sun, 4 Feb 2024 09:40:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:49:23.576269
- Title: Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement
Learning with Diverse Human Feedback
- Title(参考訳): Uni-RLHF: 多様なヒューマンフィードバックによる強化学習のためのユニバーサルプラットフォームとベンチマークスイート
- Authors: Yifu Yuan, Jianye Hao, Yi Ma, Zibin Dong, Hebin Liang, Jinyi Liu,
Zhixin Feng, Kai Zhao, Yan Zheng
- Abstract要約: 本稿では,RLHFに適したシステム実装であるUni-RLHFを紹介する。
Uni-RLHFには,1)ユニバーサルなマルチフィードバックアノテーションプラットフォーム,2)大規模なクラウドソースフィードバックデータセット,3)モジュール化されたオフラインRLHFベースライン実装の3つのパッケージが含まれている。
- 参考スコア(独自算出の注目度): 45.15081661003047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Human Feedback (RLHF) has received significant
attention for performing tasks without the need for costly manual reward design
by aligning human preferences. It is crucial to consider diverse human feedback
types and various learning methods in different environments. However,
quantifying progress in RLHF with diverse feedback is challenging due to the
lack of standardized annotation platforms and widely used unified benchmarks.
To bridge this gap, we introduce Uni-RLHF, a comprehensive system
implementation tailored for RLHF. It aims to provide a complete workflow from
real human feedback, fostering progress in the development of practical
problems. Uni-RLHF contains three packages: 1) a universal multi-feedback
annotation platform, 2) large-scale crowdsourced feedback datasets, and 3)
modular offline RLHF baseline implementations. Uni-RLHF develops a
user-friendly annotation interface tailored to various feedback types,
compatible with a wide range of mainstream RL environments. We then establish a
systematic pipeline of crowdsourced annotations, resulting in large-scale
annotated datasets comprising more than 15 million steps across 30+ popular
tasks. Through extensive experiments, the results in the collected datasets
demonstrate competitive performance compared to those from well-designed manual
rewards. We evaluate various design choices and offer insights into their
strengths and potential areas of improvement. We wish to build valuable
open-source platforms, datasets, and baselines to facilitate the development of
more robust and reliable RLHF solutions based on realistic human feedback. The
website is available at https://uni-rlhf.github.io/.
- Abstract(参考訳): Reinforcement Learning with Human Feedback (RLHF) は、人選好の調整による手作業による報酬設計を必要とせず、タスクを実行する上で大きな注目を集めている。
様々な環境において,多様なフィードバックタイプや学習方法を検討することが重要である。
しかし、標準化されたアノテーションプラットフォームや広く使用されている統一ベンチマークがないため、RLHFの進歩を様々なフィードバックで定量化することは困難である。
このギャップを埋めるために、RLHFに適したシステム実装であるUni-RLHFを導入する。
実際の人間のフィードバックから完全なワークフローを提供することを目標とし、実践的な問題の進展を促進する。
Uni-RLHF には3つのパッケージがある。
1)ユニバーサルマルチフィードバックアノテーションプラットフォーム,
2)大規模クラウドソース型フィードバックデータセット,および
3) モジュール型のオフラインRLHFベースライン実装。
Uni-RLHFは、様々なフィードバックタイプに適したユーザフレンドリーなアノテーションインターフェースを開発し、様々な主要なRL環境と互換性がある。
そして、クラウドソーシングされたアノテーションの体系的なパイプラインを構築し、30以上の一般的なタスクにまたがる1500万以上のステップからなる大規模なアノテートデータセットを作成しました。
広範な実験を通じて、収集されたデータセットの結果は、よく設計された手作業による報酬に比べて、競争力のあるパフォーマンスを示している。
さまざまな設計選択を評価し、その強みと潜在的な改善領域について洞察を提供する。
リアルな人間のフィードバックに基づいて、より堅牢で信頼性の高いRLHFソリューションの開発を容易にするために、貴重なオープンソースプラットフォーム、データセット、ベースラインを構築したいと考えています。
webサイトはhttps://uni-rlhf.github.io/で入手できる。
関連論文リスト
- Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Sample Efficient Reinforcement Learning from Human Feedback via Active
Exploration [29.935758027209292]
予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。
本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。
提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - A Long Way to Go: Investigating Length Correlations in RLHF [64.99572519647032]
本研究では,3つのオープンソース嗜好データセットを用いて学習した報酬モデルに対する報酬と長さの関係について検討した。
RLHFを長さのみに基づく報酬で実行しても、初期ポリシーモデルよりも下流の改善のほとんどを再現できることがわかった。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - UltraFeedback: Boosting Language Models with High-quality Feedback [77.55342076933047]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要な技術となっている。
現在の選好データセットは、プロプライエタリなものか、サイズが限定されているか、あるいはプロプライエタリなものかのいずれかで、オープンソースモデルでのRLHFの採用が制限されている。
本稿では,これらの制限を克服し,RLHF開発を促進するために,大規模で高品質で多様な嗜好データセットを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - RLHF-Blender: A Configurable Interactive Interface for Learning from
Diverse Human Feedback [9.407901608317895]
人間のフィードバックから学習するための対話型インタフェースであるRLHF-Blenderを提案する。
RLHF-Blenderは、研究者が人間のフィードバックの特性と品質を調査できるモジュラー実験フレームワークを提供する。
本稿では,RLHF-Blenderによる具体的な研究の機会について論じる。
論文 参考訳(メタデータ) (2023-08-08T15:21:30Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。