論文の概要: Q-Adapter: Customizing Pre-trained LLMs to New Preferences with Forgetting Mitigation
- arxiv url: http://arxiv.org/abs/2407.03856v3
- Date: Fri, 25 Oct 2024 06:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:34:15.149705
- Title: Q-Adapter: Customizing Pre-trained LLMs to New Preferences with Forgetting Mitigation
- Title(参考訳): Q-Adapter: 事前学習されたLLMをカスタマイズして、予測緩和による新しい優先度に
- Authors: Yi-Chen Li, Fuxiang Zhang, Wenjie Qiu, Lei Yuan, Chengxing Jia, Zongzhang Zhang, Yang Yu, Bo An,
- Abstract要約: 我々は、事前訓練された大規模言語モデル(LLM)を新しい人間の好みでカスタマイズすることを検討する。
新しい好みをカスタマイズするための残差Q-関数を近似するアダプタモジュールを導入したので、我々のメソッド Q-Adapter を命名する。
DSPデータセットとHH-RLHFデータセットのLlama-3.1モデルに基づく実験は、Q-Adapterの優れた効果を示している。
- 参考スコア(独自算出の注目度): 35.014856057848036
- License:
- Abstract: Large Language Models (LLMs), trained on a large amount of corpus, have demonstrated remarkable abilities. However, it may not be sufficient to directly apply open-source LLMs like Llama to certain real-world scenarios, since most of them are trained for \emph{general} purposes. Thus, the demands for customizing publicly available LLMs emerge, but are currently under-studied. In this work, we consider customizing pre-trained LLMs with new human preferences. Specifically, the LLM should not only meet the new preference but also preserve its original capabilities after customization. Drawing inspiration from the observation that human preference can be expressed as a reward model, we propose to cast LLM customization as optimizing the sum of two reward functions, one of which (denoted as $r_1$) was used to pre-train the LLM while the other (denoted as $r_2$) characterizes the new human preference. The obstacle here is that both reward functions are unknown, making the application of modern reinforcement learning methods infeasible. Thanks to the residual Q-learning framework, we can restore the customized LLM with the pre-trained LLM and the \emph{residual Q-function} without the reward function $r_1$. Moreover, we find that for a fixed pre-trained LLM, the reward function $r_2$ can be derived from the residual Q-function, enabling us to directly learn the residual Q-function from the new human preference data upon the Bradley-Terry model. We name our method Q-Adapter as it introduces an adapter module to approximate the residual Q-function for customizing the pre-trained LLM towards the new preference. Experiments based on the Llama-3.1 model on the DSP dataset and HH-RLHF dataset illustrate the superior effectiveness of Q-Adapter on both retaining existing knowledge and learning new preferences. Code is available at \url{https://github.com/mansicer/Q-Adapter}.
- Abstract(参考訳): 大規模な言語モデル (LLM) は大量のコーパスで訓練され、目覚ましい能力を示している。
しかし、LlamaのようなオープンソースのLLMを特定の現実のシナリオに直接適用するには十分ではないかもしれない。
そのため、一般公開のLSMをカスタマイズする要求が出てきたが、現在はまだ検討されていない。
本研究では,人間の好みに合わせた事前学習 LLM のカスタマイズについて検討する。
具体的には、LLMは、新しい好みを満たすだけでなく、カスタマイズ後の元の能力も維持すべきである。
報酬モデルとして人間の嗜好を表現できるという観察からインスピレーションを得て,LLMのカスタマイズを2つの報酬関数の和を最適化することを提案し,そのうちの1つ($r_1$と表記される)はLLMの事前訓練に用いられ,もう1つ($r_2$と表記される)は新たな人間の嗜好を特徴付ける。
ここでの障害は、両方の報酬関数が未知であり、近代的な強化学習法の適用が不可能である点である。
残りのQ-ラーニングフレームワークのおかげで、報酬関数 $r_1$ を使わずに、事前訓練されたLLMと \emph{residual Q-function} でカスタマイズされたLLMを復元できる。
さらに,固定事前学習 LLM の場合,報酬関数 $r_2$ は残差Q-関数から導出することができ,Bradley-Terry モデルを用いて新たなヒト選好データから残差Q-関数を直接学習できることがわかった。
提案手法は,事前学習したLCMを新しい好みにカスタマイズするための残差Q関数を近似するアダプタモジュールを導入するため,提案手法をQ-Adapterと命名する。
DSPデータセットとHH-RLHFデータセットのLlama-3.1モデルに基づく実験では、既存の知識の保持と新しい好みの学習において、Q-Adapterの優れた効果が示されている。
コードは \url{https://github.com/mansicer/Q-Adapter} で入手できる。
関連論文リスト
- Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。
VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。
我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文 参考訳(メタデータ) (2024-05-10T17:59:04Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。