論文の概要: Spontaneous Reward Hacking in Iterative Self-Refinement
- arxiv url: http://arxiv.org/abs/2407.04549v1
- Date: Fri, 5 Jul 2024 14:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:10:54.637339
- Title: Spontaneous Reward Hacking in Iterative Self-Refinement
- Title(参考訳): 反復的自己修復における自発的リワードハック
- Authors: Jane Pan, He He, Samuel R. Bowman, Shi Feng,
- Abstract要約: ヒューマンユーザの代わりに、第2言語モデルが評価手段として使用することができる。
評価器はユーザの好みの不完全なプロキシであるため、この最適化は報酬のハッキングにつながる可能性がある。
報酬のハッキングは、反復的自己抑制を用いて、自然にコンテキスト内で起こりうることを示す。
- 参考スコア(独自算出の注目度): 44.26006123913575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are capable of iteratively improving their outputs based on natural language feedback, thus enabling in-context optimization of user preference. In place of human users, a second language model can be used as an evaluator, providing feedback along with numerical ratings which the generator attempts to optimize. However, because the evaluator is an imperfect proxy of user preference, this optimization can lead to reward hacking, where the evaluator's ratings improve while the generation quality remains stagnant or even decreases as judged by actual user preference. The concern of reward hacking is heightened in iterative self-refinement where the generator and the evaluator use the same underlying language model, in which case the optimization pressure can drive them to exploit shared vulnerabilities. Using an essay editing task, we show that iterative self-refinement leads to deviation between the language model evaluator and human judgment, demonstrating that reward hacking can occur spontaneously in-context with the use of iterative self-refinement. In addition, we study conditions under which reward hacking occurs and observe two factors that affect reward hacking severity: model size and context sharing between the generator and the evaluator.
- Abstract(参考訳): 言語モデルは、自然言語のフィードバックに基づいて出力を反復的に改善し、ユーザ好みのコンテキスト内最適化を可能にする。
人間の代わりに、第2言語モデルは評価器として使用することができ、ジェネレータが最適化しようとする数値評価とともにフィードバックを提供する。
しかし,評価対象がユーザの嗜好を不完全なプロキシにしているため,この最適化は,評価対象のレーティングが向上する一方で,生成品質が停滞している場合や,実際のユーザの嗜好によって判断されるように低下する場合にも,報奨ハックにつながる可能性がある。
報酬ハッキングの懸念は、ジェネレータと評価器が同じ基礎言語モデルを使用する反復的自己修正において高められ、最適化プレッシャーが共有脆弱性を悪用する可能性がある。
本研究は,エッセイ編集タスクを用いて,反復的自己抑制が言語モデル評価器と人的判断のずれを生じさせることを示す。
さらに,報奨ハッキングが発生する条件について検討し,報奨ハッキングの重大性に影響を与える2つの要因について考察する。
関連論文リスト
- ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Recourse for reclamation: Chatting with generative language models [2.877217169371665]
生成言語モデルにアルゴリズム・リコースの概念を拡張します。
我々は,毒性フィルタリングのしきい値を動的に設定することで,希望する予測を実現する新しいメカニズムをユーザに提供する。
提案手法の可能性を実証したパイロット実験を行った。
論文 参考訳(メタデータ) (2024-03-21T15:14:25Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。