論文の概要: GFlowNets with Human Feedback
- arxiv url: http://arxiv.org/abs/2305.07036v1
- Date: Thu, 11 May 2023 01:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 15:05:37.185124
- Title: GFlowNets with Human Feedback
- Title(参考訳): ヒューマンフィードバックを備えたGFlowNets
- Authors: Yinchuan Li, Shuang Luo, Yunfeng Shao, and Jianye Hao
- Abstract要約: 我々は,AIモデルを訓練する際の探索能力を向上させるために,GFlowNets with Human Feedbackフレームワークを提案する。
報酬が不明なタスクに対しては、異なる軌道上での人間による評価を通じて報酬関数に適合する。
実験により、GFlowHFはRLHFよりも優れた探査能力が得られることが示された。
- 参考スコア(独自算出の注目度): 21.76941353605135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the GFlowNets with Human Feedback (GFlowHF) framework to improve
the exploration ability when training AI models. For tasks where the reward is
unknown, we fit the reward function through human evaluations on different
trajectories. The goal of GFlowHF is to learn a policy that is strictly
proportional to human ratings, instead of only focusing on human favorite
ratings like RLHF. Experiments show that GFlowHF can achieve better exploration
ability than RLHF.
- Abstract(参考訳): 我々は,AIモデルを訓練する際の探索能力を向上させるために,GFlowNets with Human Feedback (GFlowHF)フレームワークを提案する。
報酬が不明なタスクに対しては、異なる軌道上の人間の評価を通して報酬関数を適合させる。
GFlowHFの目標は、RLHFのような人間のお気に入りの評価だけに焦点を当てるのではなく、人間の評価に厳密に比例した政策を学ぶことだ。
実験により、GFlowHFはRLHFよりも優れた探査能力が得られることが示された。
関連論文リスト
- How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Language Models Learn to Mislead Humans via RLHF [100.95201965748343]
言語モデル(LM)は、特にタスクが複雑である場合に、人間にとって検出が難しいエラーを生成する。
我々はこの現象を標準のRLHFパイプラインで研究し、モデル開発者が意図していないことから「U-SOPHISTRY」と呼ぶ。
我々の研究は、RLHFの重要な障害モードを強調し、人間の調整を支援するためのさらなる研究を求めている。
論文 参考訳(メタデータ) (2024-09-19T14:50:34Z) - Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization [56.54271464134885]
ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討
クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。
鍵となる新規性は、軌跡レベルの楕円ポテンシャル分析である。
論文 参考訳(メタデータ) (2024-02-15T22:11:18Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback [43.51441849047147]
本稿では,RLHFに適したシステム実装であるUni-RLHFを紹介する。
Uni-RLHFには,1)ユニバーサルなマルチフィードバックアノテーションプラットフォーム,2)大規模なクラウドソースフィードバックデータセット,3)モジュール化されたオフラインRLHFベースライン実装の3つのパッケージが含まれている。
論文 参考訳(メタデータ) (2024-02-04T09:40:22Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z) - Can Differentiable Decision Trees Enable Interpretable Reward Learning from Human Feedback? [10.968490626773564]
微分決定木(DDT)を用いた嗜好から表現的・解釈可能な報酬関数を学習するための新しいアプローチを提案し,評価する。
CartPole、Visual Gridworld環境、Atariゲームなど、いくつかの領域にわたる実験により、学習した報酬関数のツリー構造が人間の嗜好に合致する範囲を決定するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-06-22T16:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。