論文の概要: Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement
Learning with Diverse Human Feedback
- arxiv url: http://arxiv.org/abs/2402.02423v1
- Date: Sun, 4 Feb 2024 09:40:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:49:23.576269
- Title: Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement
Learning with Diverse Human Feedback
- Title(参考訳): Uni-RLHF: 多様なヒューマンフィードバックによる強化学習のためのユニバーサルプラットフォームとベンチマークスイート
- Authors: Yifu Yuan, Jianye Hao, Yi Ma, Zibin Dong, Hebin Liang, Jinyi Liu,
Zhixin Feng, Kai Zhao, Yan Zheng
- Abstract要約: 本稿では,RLHFに適したシステム実装であるUni-RLHFを紹介する。
Uni-RLHFには,1)ユニバーサルなマルチフィードバックアノテーションプラットフォーム,2)大規模なクラウドソースフィードバックデータセット,3)モジュール化されたオフラインRLHFベースライン実装の3つのパッケージが含まれている。
- 参考スコア(独自算出の注目度): 45.15081661003047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Human Feedback (RLHF) has received significant
attention for performing tasks without the need for costly manual reward design
by aligning human preferences. It is crucial to consider diverse human feedback
types and various learning methods in different environments. However,
quantifying progress in RLHF with diverse feedback is challenging due to the
lack of standardized annotation platforms and widely used unified benchmarks.
To bridge this gap, we introduce Uni-RLHF, a comprehensive system
implementation tailored for RLHF. It aims to provide a complete workflow from
real human feedback, fostering progress in the development of practical
problems. Uni-RLHF contains three packages: 1) a universal multi-feedback
annotation platform, 2) large-scale crowdsourced feedback datasets, and 3)
modular offline RLHF baseline implementations. Uni-RLHF develops a
user-friendly annotation interface tailored to various feedback types,
compatible with a wide range of mainstream RL environments. We then establish a
systematic pipeline of crowdsourced annotations, resulting in large-scale
annotated datasets comprising more than 15 million steps across 30+ popular
tasks. Through extensive experiments, the results in the collected datasets
demonstrate competitive performance compared to those from well-designed manual
rewards. We evaluate various design choices and offer insights into their
strengths and potential areas of improvement. We wish to build valuable
open-source platforms, datasets, and baselines to facilitate the development of
more robust and reliable RLHF solutions based on realistic human feedback. The
website is available at https://uni-rlhf.github.io/.
- Abstract(参考訳): Reinforcement Learning with Human Feedback (RLHF) は、人選好の調整による手作業による報酬設計を必要とせず、タスクを実行する上で大きな注目を集めている。
様々な環境において,多様なフィードバックタイプや学習方法を検討することが重要である。
しかし、標準化されたアノテーションプラットフォームや広く使用されている統一ベンチマークがないため、RLHFの進歩を様々なフィードバックで定量化することは困難である。
このギャップを埋めるために、RLHFに適したシステム実装であるUni-RLHFを導入する。
実際の人間のフィードバックから完全なワークフローを提供することを目標とし、実践的な問題の進展を促進する。
Uni-RLHF には3つのパッケージがある。
1)ユニバーサルマルチフィードバックアノテーションプラットフォーム,
2)大規模クラウドソース型フィードバックデータセット,および
3) モジュール型のオフラインRLHFベースライン実装。
Uni-RLHFは、様々なフィードバックタイプに適したユーザフレンドリーなアノテーションインターフェースを開発し、様々な主要なRL環境と互換性がある。
そして、クラウドソーシングされたアノテーションの体系的なパイプラインを構築し、30以上の一般的なタスクにまたがる1500万以上のステップからなる大規模なアノテートデータセットを作成しました。
広範な実験を通じて、収集されたデータセットの結果は、よく設計された手作業による報酬に比べて、競争力のあるパフォーマンスを示している。
さまざまな設計選択を評価し、その強みと潜在的な改善領域について洞察を提供する。
リアルな人間のフィードバックに基づいて、より堅牢で信頼性の高いRLHFソリューションの開発を容易にするために、貴重なオープンソースプラットフォーム、データセット、ベースラインを構築したいと考えています。
webサイトはhttps://uni-rlhf.github.io/で入手できる。
関連論文リスト
- RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。
一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。
メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文 参考訳(メタデータ) (2024-03-08T03:05:11Z) - Sample Efficient Reinforcement Learning from Human Feedback via Active
Exploration [29.935758027209292]
予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。
本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。
提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - RLHF-Blender: A Configurable Interactive Interface for Learning from
Diverse Human Feedback [9.407901608317895]
人間のフィードバックから学習するための対話型インタフェースであるRLHF-Blenderを提案する。
RLHF-Blenderは、研究者が人間のフィードバックの特性と品質を調査できるモジュラー実験フレームワークを提供する。
本稿では,RLHF-Blenderによる具体的な研究の機会について論じる。
論文 参考訳(メタデータ) (2023-08-08T15:21:30Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。