論文の概要: Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping
- arxiv url: http://arxiv.org/abs/2503.22723v1
- Date: Wed, 26 Mar 2025 03:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:13.314499
- Title: Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping
- Title(参考訳): ロープRLにおけるゼロショットLDM--リワード整形のためのヒューマンフィードバックの置き換え-
- Authors: Mohammad Saif Nazir, Chayan Banerjee,
- Abstract要約: 強化学習はしばしば報酬の相違を伴う課題に直面します。
HIL(Human-in-the-loop)メソッドは、不整合性、主観的、あるいは不整合性フィードバックにつながるバイアスが伴うため、問題を悪化させる可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Reinforcement learning often faces challenges with reward misalignment, where agents optimize for given rewards but fail to exhibit the desired behaviors. This occurs when the reward function incentivizes proxy behaviors that diverge from the true objective. While human-in-the-loop (HIL) methods can help, they may exacerbate the problem, as humans are prone to biases that lead to inconsistent, subjective, or misaligned feedback, complicating the learning process. To address these issues, we propose two key contributions. First, we extend the use of zero-shot, off-the-shelf large language models (LLMs) for reward shaping beyond natural language processing (NLP) to continuous control tasks. By leveraging LLMs as direct feedback providers, we replace surrogate models trained on human feedback, which often suffer from the bias inherent in the feedback data it is trained on. Second, we introduce a hybrid framework (LLM-HFBF) that enables LLMs to identify and correct biases in human feedback while incorporating this feedback into the reward shaping process. The LLM-HFBF framework creates a more balanced and reliable system by addressing both the limitations of LLMs (e.g., lack of domain-specific knowledge) and human supervision (e.g., inherent biases). By enabling human feedback bias flagging and correction, our approach improves reinforcement learning performance and reduces reliance on potentially biased human guidance. Empirical experiments show that biased human feedback significantly reduces performance, with average episodic reward (AER) dropping from 28.472 in (unbiased approaches) to 7.039 (biased with conservative bias). In contrast, LLM-based approaches maintain a matching AER like unbiased feedback, even in custom edge case scenarios.
- Abstract(参考訳): 強化学習はしばしば報酬のミスアライメントを伴う課題に直面し、エージェントは与えられた報酬を最適化するが、望ましい行動を示すことができない。
これは、報酬関数が真の目的から分岐するプロキシの振る舞いをインセンティブ化するときに発生する。
HIL(Human-in-the-loop)メソッドは、不整合性、主観的、あるいは不整合性フィードバックにつながる偏見を伴い、学習プロセスが複雑になるため、問題を悪化させる可能性がある。
これらの問題に対処するために、我々は2つの重要な貢献を提案する。
まず,ゼロショット・オフザシェルフ大言語モデル(LLM)を用いて,自然言語処理(NLP)を超越した報酬生成を連続制御タスクに拡張する。
LLMを直接的なフィードバックプロバイダとして活用することで、トレーニング対象のフィードバックデータに固有のバイアスに悩まされる、人間のフィードバックに基づいてトレーニングされた代理モデルを置き換えることができます。
第2に、LLMが報酬形成プロセスにこのフィードバックを取り入れつつ、人間のフィードバックのバイアスを特定し、修正することを可能にするハイブリッドフレームワーク(LLM-HFBF)を導入する。
LLM-HFBFフレームワークは、LLMの限界(例えば、ドメイン固有の知識の欠如)と人間の監督(例えば、固有のバイアス)に対処することによって、よりバランスよく信頼性の高いシステムを生成する。
人間のフィードバックバイアスのフラグ付けと修正を可能とすることにより、強化学習性能を改善し、潜在的にバイアスのある人的指導への依存を減らすことができる。
経験的実験により、偏りのある人間のフィードバックはパフォーマンスを著しく低下させ、平均的なエピソード報酬(AER)は28.472から7.039に低下した。
対照的に、LLMベースのアプローチは、カスタムのエッジケースシナリオであっても、偏りのないフィードバックのように、AERと一致するものを維持します。
関連論文リスト
- Linear Probe Penalties Reduce LLM Sycophancy [3.6490659260835234]
大規模言語モデル(LLM)は、しばしばサイコファンであり、正確または客観的なステートメントよりもユーザとの合意を優先する。
ヒトフィードバック(RLHF)からの強化学習において、この問題行動はより顕著になる
本研究では,報酬モデル内でサイコファンシーのマーカーを識別し,ペナルティ化する線形探索法を開発し,サイコファンの行動を妨げる報酬を生成する。
論文 参考訳(メタデータ) (2024-12-01T21:11:28Z) - Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。
本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-22T19:52:08Z) - Post-hoc Reward Calibration: A Case Study on Length Bias [28.266675778940133]
リワードモデル(RM)は、トレーニングデータに突発的な相関を利用してバイアスを発生させることができる。
これらのバイアスは、誤った出力ランキング、準最適モデル評価、望ましくない振る舞いの増幅につながる可能性がある。
本稿では、追加データやトレーニングを使わずにバイアスを修正するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-25T22:30:42Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback [61.28463542324576]
本稿では,大規模言語モデルから自然言語フィードバック(NLF)を革新的に活用する大規模視覚言語モデル(LVLM)であるDRESSを紹介する。
我々は,NLFの新たな分類法を2つの重要なタイプに分類する。
実験の結果、DRESSはより有用な(9.76%)、正直な(11.52%)、無害な(21.03%)を生成できることが示された。
論文 参考訳(メタデータ) (2023-11-16T18:37:29Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。