論文の概要: GFlowNets with Human Feedback
- arxiv url: http://arxiv.org/abs/2305.07036v1
- Date: Thu, 11 May 2023 01:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 15:05:37.185124
- Title: GFlowNets with Human Feedback
- Title(参考訳): ヒューマンフィードバックを備えたGFlowNets
- Authors: Yinchuan Li, Shuang Luo, Yunfeng Shao, and Jianye Hao
- Abstract要約: 我々は,AIモデルを訓練する際の探索能力を向上させるために,GFlowNets with Human Feedbackフレームワークを提案する。
報酬が不明なタスクに対しては、異なる軌道上での人間による評価を通じて報酬関数に適合する。
実験により、GFlowHFはRLHFよりも優れた探査能力が得られることが示された。
- 参考スコア(独自算出の注目度): 21.76941353605135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the GFlowNets with Human Feedback (GFlowHF) framework to improve
the exploration ability when training AI models. For tasks where the reward is
unknown, we fit the reward function through human evaluations on different
trajectories. The goal of GFlowHF is to learn a policy that is strictly
proportional to human ratings, instead of only focusing on human favorite
ratings like RLHF. Experiments show that GFlowHF can achieve better exploration
ability than RLHF.
- Abstract(参考訳): 我々は,AIモデルを訓練する際の探索能力を向上させるために,GFlowNets with Human Feedback (GFlowHF)フレームワークを提案する。
報酬が不明なタスクに対しては、異なる軌道上の人間の評価を通して報酬関数を適合させる。
GFlowHFの目標は、RLHFのような人間のお気に入りの評価だけに焦点を当てるのではなく、人間の評価に厳密に比例した政策を学ぶことだ。
実験により、GFlowHFはRLHFよりも優れた探査能力が得られることが示された。
関連論文リスト
- Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on
Efficient Data Utilization [60.66162263756611]
ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討
クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。
重要な特徴は、報酬関数パラメーターを推論するために用いられる軌道レベルの楕円ポテンシャル分析技術である。
論文 参考訳(メタデータ) (2024-02-15T22:11:18Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback [43.51441849047147]
本稿では,RLHFに適したシステム実装であるUni-RLHFを紹介する。
Uni-RLHFには,1)ユニバーサルなマルチフィードバックアノテーションプラットフォーム,2)大規模なクラウドソースフィードバックデータセット,3)モジュール化されたオフラインRLHFベースライン実装の3つのパッケージが含まれている。
論文 参考訳(メタデータ) (2024-02-04T09:40:22Z) - Evolution Guided Generative Flow Networks [11.609895436955242]
Generative Flow Networks(GFlowNets)は、報酬に比例した合成オブジェクトのサンプリングを学ぶ。
GFlowNetsの大きな課題のひとつは、長期間の地平線とまばらな報酬を扱う際に、それらを効果的にトレーニングすることだ。
進化的アルゴリズム(EA)を用いたGFlowNetsトレーニングの簡易かつ強力な拡張であるEGFN(Evolution Guided Generative Flow Network)を提案する。
論文 参考訳(メタデータ) (2024-02-03T15:28:53Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - A Long Way to Go: Investigating Length Correlations in RLHF [64.99572519647032]
本研究では,3つのオープンソース嗜好データセットを用いて学習した報酬モデルに対する報酬と長さの関係について検討した。
RLHFを長さのみに基づく報酬で実行しても、初期ポリシーモデルよりも下流の改善のほとんどを再現できることがわかった。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - SLiC-HF: Sequence Likelihood Calibration with Human Feedback [35.74135968442311]
最近導入されたSequence Likelihood(SLiC)は、人間の嗜好から効果的に学習できることを示す。
TL;DR要約タスクの実験により、SLiC-HFは教師付き微調整ベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-17T17:57:10Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。