論文の概要: Q-Probe: A Lightweight Approach to Reward Maximization for Language
Models
- arxiv url: http://arxiv.org/abs/2402.14688v1
- Date: Thu, 22 Feb 2024 16:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:34:47.785481
- Title: Q-Probe: A Lightweight Approach to Reward Maximization for Language
Models
- Title(参考訳): Q-Probe: 言語モデルのリワード最大化のための軽量アプローチ
- Authors: Kenneth Li, Samy Jelassi, Hugh Zhang, Sham Kakade, Martin Wattenberg,
David Brandfonbrener
- Abstract要約: 本稿では,タスク固有報酬関数を最大化するために,事前学習言語モデルを適用するQ-probingという手法を提案する。
高いレベルでは、Q-probingは、微調整のようなより重いアプローチと、少ないショットプロンプトのようなより軽いアプローチの間に位置する。
- 参考スコア(独自算出の注目度): 17.64452881060962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach called Q-probing to adapt a pre-trained language model
to maximize a task-specific reward function. At a high level, Q-probing sits
between heavier approaches such as finetuning and lighter approaches such as
few shot prompting, but can also be combined with either. The idea is to learn
a simple linear function on a model's embedding space that can be used to
reweight candidate completions. We theoretically show that this sampling
procedure is equivalent to a KL-constrained maximization of the Q-probe as the
number of samples increases. To train the Q-probes we consider either reward
modeling or a class of novel direct policy learning objectives based on
importance weighted policy gradients. With this technique, we see gains in
domains with ground-truth rewards (code generation) as well as implicit rewards
defined by preference data, even outperforming finetuning in data-limited
regimes. Moreover, a Q-probe can be trained on top of an API since it only
assumes access to sampling and embeddings. Code:
https://github.com/likenneth/q_probe .
- Abstract(参考訳): 本稿では,タスク固有報酬関数を最大化するために,事前学習言語モデルを適用するQ-probingという手法を提案する。
高いレベルでは、Q-probingは微調整のようなより重いアプローチと、少ないショットプロンプトのようなより軽いアプローチの中間に位置するが、どちらも組み合わせることができる。
この考え方は、モデルの埋め込み空間上の単純な線型関数を学習し、候補完備化の重み付けに使うことができる。
このサンプリング手順は, サンプル数の増加に伴い, KL制約によるQプローブの最大化と等価であることを示す。
q-probesをトレーニングするには、報酬モデリングか、重要度重み付けポリシー勾配に基づく新しい直接政策学習目標のクラスを検討する。
この手法を用いることで、データ制限されたレシエーションにおいて微調整よりも優れる、好みデータによって定義された暗黙の報奨(コード生成)を持つドメインでの利得が得られます。
さらに、Q-probeは、サンプリングと埋め込みへのアクセスのみを前提としているため、API上でトレーニングすることができる。
コード: https://github.com/likenneth/q_probe。
関連論文リスト
- IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies [72.4573167739712]
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
論文 参考訳(メタデータ) (2023-04-20T18:04:09Z) - Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through
Memory Sharing of Q-Snapshots [8.610425739792284]
そこで我々は,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,ポリシー更新の方向性を共同で決定する政策改善スキームである。
本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-06T16:29:47Z) - Quantile Filtered Imitation Learning [49.11859771578969]
量子フィルタ模倣学習(QFIL)は、オフライン強化学習用に設計されたポリシー改善演算子である。
我々はQFILが機能近似による安全なポリシー改善のステップを提供することを証明した。
QFILはD4RLベンチマークでよく機能します。
論文 参考訳(メタデータ) (2021-12-02T03:08:23Z) - Q-Match: Iterative Shape Matching via Quantum Annealing [64.74942589569596]
形状対応を見つけることは、NP-hard quadratic assignment problem (QAP)として定式化できる。
本稿では,アルファ拡大アルゴリズムに触発されたQAPの反復量子法Q-Matchを提案する。
Q-Match は、実世界の問題にスケールできるような長文対応のサブセットにおいて、反復的に形状マッチング問題に適用できる。
論文 参考訳(メタデータ) (2021-05-06T17:59:38Z) - Model-free Policy Learning with Reward Gradients [9.847875182113137]
モデルを学ぶことなく報酬勾配を統合する新しいアプローチであるtextitReward Policy Gradient estimator を開発した。
また,様々な MuJoCo 制御タスクにおける近似ポリシ最適化の性能も向上する。
論文 参考訳(メタデータ) (2021-03-09T00:14:13Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Less is More: Data-Efficient Complex Question Answering over Knowledge
Bases [26.026065844896465]
本稿では,複雑な質問応答のためのデータ効率向上学習フレームワークであるNS-CQAモデルを提案する。
我々のフレームワークはニューラルジェネレータとシンボリックエグゼキュータで構成されており、自然言語の質問を原始的なアクションのシーケンスに変換する。
近年の大規模質問応答データセットであるCQAと,マルチホップ質問応答データセットであるWebQuestionsSPの2つのデータセットで評価を行った。
論文 参考訳(メタデータ) (2020-10-29T18:42:44Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。