論文の概要: Black-Box Prompt Optimization: Aligning Large Language Models without Model Training
- arxiv url: http://arxiv.org/abs/2311.04155v3
- Date: Fri, 21 Jun 2024 06:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 20:17:56.955971
- Title: Black-Box Prompt Optimization: Aligning Large Language Models without Model Training
- Title(参考訳): Black-Box Prompt Optimization: モデルトレーニングなしで大規模言語モデルを調整する
- Authors: Jiale Cheng, Xiao Liu, Kehan Zheng, Pei Ke, Hongning Wang, Yuxiao Dong, Jie Tang, Minlie Huang,
- Abstract要約: 大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めている。
LLMは人間の意図とよく一致しないことが多いため、追加の治療が必要である。
この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。
- 参考スコア(独自算出の注目度): 95.73262836039231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown impressive success in various applications. However, these models are often not well aligned with human intents, which calls for additional treatments on them; that is, the alignment problem. To make LLMs better follow user instructions, existing alignment methods primarily focus on further training them. However, the extra training of LLMs is usually expensive in terms of GPU computing; even worse, some LLMs are not accessible for user-demanded training, such as GPTs. In this work, we take a different perspective -- Black-Box Prompt Optimization (BPO) -- to perform alignments. The idea is to optimize user prompts to suit LLMs' input understanding, so as to best realize users' intents without updating LLMs' parameters. BPO leverages human preferences to optimize prompts, thus making it superior to LLM (e.g., ChatGPT) as a prompt engineer. Moreover, BPO is model-agnostic, and the empirical results demonstrate that the BPO-aligned ChatGPT yields a 22% increase in the win rate against its original version and 10% for GPT-4. Notably, the BPO-aligned LLMs can outperform the same models aligned by PPO and DPO, and it also brings additional performance gains when combining BPO with PPO or DPO. Code and datasets are released at https://github.com/thu-coai/BPO.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めている。
しかしながら、これらのモデルは人間の意図とよく一致しないことが多く、それらに対する追加的な治療、すなわちアライメントの問題を要求する。
LLMがユーザー指示に従うのを良くするために、既存のアライメントメソッドは主にそれらをさらに訓練することに焦点を当てている。
さらに悪いことに、一部のLLMはGPTのようなユーザ要求のトレーニングにはアクセスできない。
この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。
ユーザプロンプトをLLMの入力理解に合わせるように最適化し、LLMのパラメータを更新せずにユーザの意図を最大限に実現する。
BPOは人間の好みを利用してプロンプトを最適化するので、プロンプトエンジニアとしてLLM(例えばChatGPT)よりも優れている。
さらに, BPOはモデル非依存であり, 実験結果から, BPOを配向したChatGPTは, 元のバージョンに対して22%, GPT-4では10%上昇することがわかった。
特に、BPO整列LLMは、PPOとDPOで整列された同じモデルよりも優れており、BPOとPPOまたはDPOを組み合わせる際に、さらなる性能向上をもたらす。
コードとデータセットはhttps://github.com/thu-coai/BPO.orgで公開されている。
関連論文リスト
- Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning [18.763247227949822]
大規模言語モデル(LLM)はゼロショットプロンプトと少数ショットプロンプトを使用して自然言語生成に優れる。
BERTベースのようなエンコーダのみのモデルは、GLUEやSuperGLUEのようなベンチマークでLLMより優れている。
本稿では,LLMのNLU能力を高めるために,SFTとPPOの2つのアプローチについて検討する。
論文 参考訳(メタデータ) (2024-10-14T19:16:56Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - Bootstrapping Language Models with DPO Implicit Rewards [45.68366127605774]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。
本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。
DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-14T06:57:18Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [16.99550556866219]
Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデル(LLM)を人間の好みに合わせるために最も広く使われている手法である。
学術ベンチマークでは、最先端の結果は直接選好最適化(DPO)のような報酬のない手法によって達成されることが多い。
PPOは、あらゆるケースにおいて他のアライメント手法を超越し、挑戦的なコード競争において最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2024-04-16T16:51:53Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。