Fugu-MT 論文翻訳(概要): GFlowNets with Human Feedback

論文の概要: GFlowNets with Human Feedback

arxiv url: http://arxiv.org/abs/2305.07036v1
Date: Thu, 11 May 2023 01:51:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-15 15:05:37.185124
Title: GFlowNets with Human Feedback
Title（参考訳）: ヒューマンフィードバックを備えたGFlowNets
Authors: Yinchuan Li, Shuang Luo, Yunfeng Shao, and Jianye Hao
Abstract要約: 我々は,AIモデルを訓練する際の探索能力を向上させるために,GFlowNets with Human Feedbackフレームワークを提案する。報酬が不明なタスクに対しては、異なる軌道上での人間による評価を通じて報酬関数に適合する。実験により、GFlowHFはRLHFよりも優れた探査能力が得られることが示された。
参考スコア（独自算出の注目度）: 21.76941353605135
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose the GFlowNets with Human Feedback (GFlowHF) framework to improve the exploration ability when training AI models. For tasks where the reward is unknown, we fit the reward function through human evaluations on different trajectories. The goal of GFlowHF is to learn a policy that is strictly proportional to human ratings, instead of only focusing on human favorite ratings like RLHF. Experiments show that GFlowHF can achieve better exploration ability than RLHF.
Abstract（参考訳）: 我々は,AIモデルを訓練する際の探索能力を向上させるために,GFlowNets with Human Feedback (GFlowHF)フレームワークを提案する。報酬が不明なタスクに対しては、異なる軌道上の人間の評価を通して報酬関数を適合させる。 GFlowHFの目標は、RLHFのような人間のお気に入りの評価だけに焦点を当てるのではなく、人間の評価に厳密に比例した政策を学ぶことだ。実験により、GFlowHFはRLHFよりも優れた探査能力が得られることが示された。

関連論文リスト

Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback [12.7099489697479]
本稿では、推論タスク検証器(RTV)と生成報酬モデル(GenRM)を組み合わせたハイブリッド報酬システムを導入し、報酬ハッキングを緩和する。また,応答の多様性を維持し,学習効率を高めるために,新しいプロンプト選択手法であるPre-PPOを提案する。
論文参考訳（メタデータ） (2025-03-28T08:26:41Z)
Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。報酬形成はRLHFを安定させ、報酬ハッキングを部分的に軽減する。本稿では,報酬形成手法の総合的研究について述べる。提案手法は,報酬モデル自体に埋め込まれた潜在的嗜好を,強化学習の信号として活用する手法である。
論文参考訳（メタデータ） (2025-02-26T02:57:59Z)
Understanding Impact of Human Feedback via Influence Functions [25.467337374024197]
Reinforcement Learning from Human Feedback (RLHF)では、人間のフィードバックから適切な報酬モデルを学ぶことが重要である。人間のフィードバックは、特に複雑な反応を評価するとき、しばしばうるさい、一貫性がない、偏見がある。本稿では,人間からのフィードバックが報酬モデルの性能に与える影響を測定するための計算効率の近似法を提案する。
論文参考訳（メタデータ） (2025-01-10T08:50:38Z)
How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文参考訳（メタデータ） (2024-10-18T21:38:21Z)
Language Models Learn to Mislead Humans via RLHF [100.95201965748343]
言語モデル(LM)は、特にタスクが複雑である場合に、人間にとって検出が難しいエラーを生成する。我々はこの現象を標準のRLHFパイプラインで研究し、モデル開発者が意図していないことから「U-SOPHISTRY」と呼ぶ。我々の研究は、RLHFの重要な障害モードを強調し、人間の調整を支援するためのさらなる研究を求めている。
論文参考訳（メタデータ） (2024-09-19T14:50:34Z)
Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization [56.54271464134885]
ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。鍵となる新規性は、軌跡レベルの楕円ポテンシャル分析である。
論文参考訳（メタデータ） (2024-02-15T22:11:18Z)
ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。 LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文参考訳（メタデータ） (2024-02-11T22:40:12Z)
Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback [43.51441849047147]
本稿では,RLHFに適したシステム実装であるUni-RLHFを紹介する。 Uni-RLHFには,1)ユニバーサルなマルチフィードバックアノテーションプラットフォーム,2)大規模なクラウドソースフィードバックデータセット,3)モジュール化されたオフラインRLHFベースライン実装の3つのパッケージが含まれている。
論文参考訳（メタデータ） (2024-02-04T09:40:22Z)
Evolution Guided Generative Flow Networks [10.330009481776454]
Generative Flow Networks(GFlowNets)は、報酬に比例した合成オブジェクトのサンプリングを学ぶ。 GFlowNetsの大きな課題のひとつは、長期間の地平線とまばらな報酬を扱う際に、それらを効果的にトレーニングすることだ。進化的アルゴリズム(EA)を用いたGFlowNetsトレーニングの簡易かつ強力な拡張であるEGFN(Evolution Guided Generative Flow Network)を提案する。
論文参考訳（メタデータ） (2024-02-03T15:28:53Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文参考訳（メタデータ） (2023-10-05T17:38:28Z)
Can Differentiable Decision Trees Enable Interpretable Reward Learning from Human Feedback? [10.968490626773564]
微分決定木(DDT)を用いた嗜好から表現的・解釈可能な報酬関数を学習するための新しいアプローチを提案し,評価する。 CartPole、Visual Gridworld環境、Atariゲームなど、いくつかの領域にわたる実験により、学習した報酬関数のツリー構造が人間の嗜好に合致する範囲を決定するのに有用であることを示す。
論文参考訳（メタデータ） (2023-06-22T16:04:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。