論文の概要: Q-Probe: A Lightweight Approach to Reward Maximization for Language Models
- arxiv url: http://arxiv.org/abs/2402.14688v2
- Date: Sun, 2 Jun 2024 15:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 16:28:21.093339
- Title: Q-Probe: A Lightweight Approach to Reward Maximization for Language Models
- Title(参考訳): Q-Probe: 言語モデルのリワード最大化のための軽量アプローチ
- Authors: Kenneth Li, Samy Jelassi, Hugh Zhang, Sham Kakade, Martin Wattenberg, David Brandfonbrener,
- Abstract要約: 本稿では,タスク固有報酬関数を最大化するために,事前学習言語モデルを適用するQ-probingという手法を提案する。
高いレベルでは、Q-probingは、微調整のようなより重いアプローチと、少ないショットプロンプトのようなより軽いアプローチの間に位置する。
- 参考スコア(独自算出の注目度): 16.801981347658625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach called Q-probing to adapt a pre-trained language model to maximize a task-specific reward function. At a high level, Q-probing sits between heavier approaches such as finetuning and lighter approaches such as few shot prompting, but can also be combined with either. The idea is to learn a simple linear function on a model's embedding space that can be used to reweight candidate completions. We theoretically show that this sampling procedure is equivalent to a KL-constrained maximization of the Q-probe as the number of samples increases. To train the Q-probes we consider either reward modeling or a class of novel direct policy learning objectives based on importance weighted policy gradients. With this technique, we see gains in domains with ground-truth rewards (code generation) as well as implicit rewards defined by preference data, even outperforming finetuning in data-limited regimes. Moreover, a Q-probe can be trained on top of an API since it only assumes access to sampling and embeddings. Code: https://github.com/likenneth/q_probe .
- Abstract(参考訳): 本稿では,タスク固有報酬関数を最大化するために,事前学習言語モデルを適用するQ-probingという手法を提案する。
高いレベルでは、Q-probingは、微調整のようなより重いアプローチと、少ないショットプロンプトのようなより軽いアプローチの中間に位置するが、どちらも組み合わせることができる。
この考え方は、モデルの埋め込み空間上の単純な線型関数を学習し、候補完備化の重み付けに使うことができる。
このサンプリング手順は, サンプル数の増加に伴い, KL制約によるQプローブの最大化と等価であることが理論的に示されている。
Q-プローブを訓練するために、重要度重み付けされた政策勾配に基づいて報酬モデリングまたは新しい政策学習目標のクラスを検討する。
この手法を用いることで、データ制限されたレシエーションにおいて微調整よりも優れる、好みデータによって定義された暗黙の報奨(コード生成)を持つドメインでの利得が得られます。
さらに、Q-probeは、サンプリングと埋め込みへのアクセスのみを前提としているため、API上でトレーニングすることができる。
コード:https://github.com/likenneth/q_probe 。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [44.95386817008473]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
Reinforcement Learning From Human Feedback (RLHF)は、次世代のジェネレーティブAIモデルの成功に不可欠である。
直接選好最適化(DPO)は代替手法として登場している。
DPOは標準のRLHF設定と同じ目的を達成しているが、2つのアプローチの間にはミスマッチがある。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through Memory Sharing of Q-Snapshots [11.533449955841968]
そこで我々は,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,ポリシー更新の方向性を共同で決定する政策改善スキームである。
本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-06T16:29:47Z) - Quantile Filtered Imitation Learning [49.11859771578969]
量子フィルタ模倣学習(QFIL)は、オフライン強化学習用に設計されたポリシー改善演算子である。
我々はQFILが機能近似による安全なポリシー改善のステップを提供することを証明した。
QFILはD4RLベンチマークでよく機能します。
論文 参考訳(メタデータ) (2021-12-02T03:08:23Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。