論文の概要: Interpreting Reward Models in RLHF-Tuned Language Models Using Sparse
Autoencoders
- arxiv url: http://arxiv.org/abs/2310.08164v2
- Date: Tue, 28 Nov 2023 05:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 14:02:59.576513
- Title: Interpreting Reward Models in RLHF-Tuned Language Models Using Sparse
Autoencoders
- Title(参考訳): スパースオートエンコーダを用いたRLHF修飾言語モデルの逆モデル解釈
- Authors: Luke Marks, Amir Abdullah, Luna Mendez, Rauno Arike, Philip Torr, Fazl
Barez
- Abstract要約: 大規模言語モデル(LLM)における暗黙報酬モデル(IRM)の解釈手法を提案する。
我々のアプローチは、ベースLSMとそのRLHF調整型からアクティベートされたオートエンコーダのペアを訓練する。
スパースオートエンコーダのIRM解釈への応用としてはこれが初めてである。
- 参考スコア(独自算出の注目度): 8.15890412446096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) aligned to human preferences via reinforcement
learning from human feedback (RLHF) underpin many commercial applications of
LLM technology. Despite this, the impacts of RLHF on LLM internals remain
opaque. We propose a novel method for interpreting implicit reward models
(IRMs) in LLMs learned through RLHF. Our approach trains pairs of autoencoders
on activations from a base LLM and its RLHF-tuned variant. Through a comparison
of autoencoder hidden spaces, we identify features that reflect the accuracy of
the learned IRM. To illustrate our method, we fine-tune an LLM via RLHF to
learn a token-utility mapping and maximize the aggregate utility of generated
text. This is the first application of sparse autoencoders to interpreting
IRMs. Our method provides an abstract approximation of reward integrity and
holds promise for measuring alignment between specified objectives and learned
model behaviors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間のフィードバック(RLHF)からの強化学習を通じて、人間の好みに合わせている。
しかし、LLM内部へのRLHFの影響はいまだに不透明である。
RLHF を用いて学習した LLM における暗黙報酬モデル (IRM) の解釈法を提案する。
我々のアプローチは、ベースLSMとそのRLHF調整型からアクティベートされたオートエンコーダのペアを訓練する。
オートエンコーダの隠れ空間の比較により,学習したIRMの精度を反映した特徴を同定する。
提案手法を説明するため,RLHFを用いてLPMを微調整し,トークンユーティリティマッピングを学習し,生成したテキストの集合的有用性を最大化する。
これは、irmを解釈するためのスパースオートエンコーダの最初のアプリケーションである。
本手法は報酬の整合性を抽象的に近似し,特定の目的と学習モデル行動の一致度を測定することを約束する。
関連論文リスト
- Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflection [24.435121488662897]
反射フィードバックによる強化学習(RLRF)という新しい枠組みを提案する。
RLRFは自己回帰機構を用いて、LLM応答を体系的に探索し、洗練し、RLアルゴリズムを介してモデルを微調整し、有望な応答を与える。
ジャスト・エバル, ファクタリティ, 数学的推論による実験は, RLRFの有効性と変換ポテンシャルを実証した。
論文 参考訳(メタデータ) (2024-03-21T08:57:27Z) - Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model
with Proxy [47.327200425168314]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) が人間の価値と一致することを確実にするための一般的なアプローチである。
本稿では,LLMの生成とアライメントを分離するProxy-RLHFを紹介する。
本手法は他の手法のトレーニングパラメータの1%に匹敵するアライメントのレベルを達成する。
論文 参考訳(メタデータ) (2024-03-07T07:31:00Z) - Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。