Fugu-MT 論文翻訳(概要): Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback

論文の概要: Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback

arxiv url: http://arxiv.org/abs/2402.02423v2
Date: Mon, 25 Mar 2024 13:20:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 01:35:51.230669
Title: Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback
Title（参考訳）: Uni-RLHF:Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback
Authors: Yifu Yuan, Jianye Hao, Yi Ma, Zibin Dong, Hebin Liang, Jinyi Liu, Zhixin Feng, Kai Zhao, Yan Zheng,
Abstract要約: 本稿では,RLHFに適したシステム実装であるUni-RLHFを紹介する。 Uni-RLHFには,1)ユニバーサルなマルチフィードバックアノテーションプラットフォーム,2)大規模なクラウドソースフィードバックデータセット,3)モジュール化されたオフラインRLHFベースライン実装の3つのパッケージが含まれている。
参考スコア（独自算出の注目度）: 43.51441849047147
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning with Human Feedback (RLHF) has received significant attention for performing tasks without the need for costly manual reward design by aligning human preferences. It is crucial to consider diverse human feedback types and various learning methods in different environments. However, quantifying progress in RLHF with diverse feedback is challenging due to the lack of standardized annotation platforms and widely used unified benchmarks. To bridge this gap, we introduce Uni-RLHF, a comprehensive system implementation tailored for RLHF. It aims to provide a complete workflow from real human feedback, fostering progress in the development of practical problems. Uni-RLHF contains three packages: 1) a universal multi-feedback annotation platform, 2) large-scale crowdsourced feedback datasets, and 3) modular offline RLHF baseline implementations. Uni-RLHF develops a user-friendly annotation interface tailored to various feedback types, compatible with a wide range of mainstream RL environments. We then establish a systematic pipeline of crowdsourced annotations, resulting in large-scale annotated datasets comprising more than 15 million steps across 30+ popular tasks. Through extensive experiments, the results in the collected datasets demonstrate competitive performance compared to those from well-designed manual rewards. We evaluate various design choices and offer insights into their strengths and potential areas of improvement. We wish to build valuable open-source platforms, datasets, and baselines to facilitate the development of more robust and reliable RLHF solutions based on realistic human feedback. The website is available at https://uni-rlhf.github.io/.
Abstract（参考訳）: Reinforcement Learning with Human Feedback (RLHF) は、人選好の調整による手作業による報酬設計を必要とせず、タスクを実行する上で大きな注目を集めている。様々な環境において,多様なフィードバックタイプや学習方法を検討することが重要である。しかし、標準化されたアノテーションプラットフォームや広く使用されている統一ベンチマークがないため、RLHFの進歩を様々なフィードバックで定量化することは困難である。このギャップを埋めるために、RLHFに適したシステム実装であるUni-RLHFを導入する。実際の人間のフィードバックから完全なワークフローを提供することを目標とし、実践的な問題の進展を促進する。 Uni-RLHF には3つのパッケージがある。 1) ユニバーサルマルチフィードバックアノテーションプラットフォーム。 2)大規模クラウドソースフィードバックデータセット 3) モジュール型のオフラインRLHFベースライン実装。 Uni-RLHFは、様々なフィードバックタイプに適したユーザフレンドリーなアノテーションインターフェースを開発し、様々な主要なRL環境と互換性がある。そして、クラウドソーシングされたアノテーションの体系的なパイプラインを構築し、30以上の一般的なタスクにまたがる1500万以上のステップからなる大規模なアノテートデータセットを作成しました。大規模な実験を通じて、収集されたデータセットの結果は、よく設計された手作業による報酬と比較して、競争力のあるパフォーマンスを示している。さまざまな設計選択を評価し、その強みと潜在的な改善領域について洞察を提供する。リアルな人間のフィードバックに基づいて、より堅牢で信頼性の高いRLHFソリューションの開発を容易にするために、貴重なオープンソースプラットフォーム、データセット、ベースラインを構築したいと考えています。ウェブサイトはhttps://uni-rlhf.github.io/.comで公開されている。

関連論文リスト

Reward Learning from Multiple Feedback Types [7.910064218813772]
様々な種類のフィードバックを活用でき、強力な報酬モデリング性能が得られることを示す。この研究は、RLHFのマルチタイプフィードバックの可能性を示す最初の強力な指標である。
論文参考訳（メタデータ） (2025-02-28T13:29:54Z)
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits [59.30310692855397]
本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。 RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Curiosity-Driven Reinforcement Learning from Human Feedback [56.45486828254951]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを一致させるのに有効であるが、出力の多様性を減らすためにしばしば効果的である。好奇心駆動型RLHF(CD-RLHF)を導入する。テキスト要約や命令追従を含むタスクの広範な実験を通じて,CD-RLHFの有効性を実証する。
論文参考訳（メタデータ） (2025-01-20T12:51:40Z)
RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。 RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文参考訳（メタデータ） (2024-05-13T15:50:39Z)
Provable Multi-Party Reinforcement Learning with Diverse Human Feedback [63.830731470186855]
RLHF(Reinforcement Learning with Human feedback)は、モデルと人間の好みを結びつける新しいパラダイムである。一つの報酬関数を学習しても、複数の個人の好みを捉えバランスが取れないので、従来のRLHFアプローチが失敗する可能性があることを示す。メタラーニングを取り入れて、複数の嗜好を学習し、異なる社会福祉機能を採用して、複数のパーティにまたがる嗜好を集約する。
論文参考訳（メタデータ） (2024-03-08T03:05:11Z)
Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration [29.935758027209292]
予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文参考訳（メタデータ） (2023-10-05T17:38:28Z)
UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文参考訳（メタデータ） (2023-10-02T17:40:01Z)
RLHF-Blender: A Configurable Interactive Interface for Learning from Diverse Human Feedback [9.407901608317895]
人間のフィードバックから学習するための対話型インタフェースであるRLHF-Blenderを提案する。 RLHF-Blenderは、研究者が人間のフィードバックの特性と品質を調査できるモジュラー実験フレームワークを提供する。本稿では,RLHF-Blenderによる具体的な研究の機会について論じる。
論文参考訳（メタデータ） (2023-08-08T15:21:30Z)
RRHF: Rank Responses to Align Language Models with Human Feedback without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文参考訳（メタデータ） (2023-04-11T15:53:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。