論文の概要: Black-Box Prompt Optimization: Aligning Large Language Models without
Model Training
- arxiv url: http://arxiv.org/abs/2311.04155v1
- Date: Tue, 7 Nov 2023 17:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 14:34:02.317138
- Title: Black-Box Prompt Optimization: Aligning Large Language Models without
Model Training
- Title(参考訳): Black-Box Prompt Optimization: モデルトレーニングなしで大規模言語モデルを調整する
- Authors: Jiale Cheng, Xiao Liu, Kehan Zheng, Pei Ke, Hongning Wang, Yuxiao
Dong, Jie Tang, Minlie Huang
- Abstract要約: 大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めている。
これらのモデルは、しばしば人間の意図とうまく一致しないが、それらに対する追加的な治療、すなわちアライメントの問題を要求する。
この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。
- 参考スコア(独自算出の注目度): 99.85585239956856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown impressive success in various
applications. However, these models are often not well aligned with human
intents, which calls for additional treatments on them, that is, the alignment
problem. To make LLMs better follow user instructions, existing alignment
methods mostly focus on further training them. However, the extra training of
LLMs are usually expensive in terms of GPU compute; worse still, LLMs of
interest are oftentimes not accessible for user-demanded training, such as
GPTs. In this work, we take a different perspective -- Black-Box Prompt
Optimization (BPO) -- to perform alignments. The idea is to optimize user
prompts to suit LLMs' input understanding, so as to best realize users' intents
without updating LLMs' parameters. BPO is model-agnostic and the empirical
results demonstrate that the BPO-aligned ChatGPT yields a 22\% increase in the
win rate against its original version, and 10\% for GPT-4. Importantly, the
\model-aligned LLMs can outperform the same models aligned by PPO and DPO, and
it also brings additional performance gains when combining \model with PPO or
DPO. Code and datasets are released at https://github.com/thu-coai/BPO.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なアプリケーションで素晴らしい成功を収めている。
しかしながら、これらのモデルは人間の意図とよく一致しないことが多く、それに対して追加的な治療、すなわちアライメントの問題を要求する。
LLMがユーザー指示に従うのを良くするために、既存のアライメントメソッドは主にそれらをさらに訓練することに焦点を当てている。
しかし、LLMの余分なトレーニングは通常GPU計算の点で高価であり、さらに悪いことに、LPMはGPTのようなユーザ要求のトレーニングではアクセスできないことが多い。
この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。
ユーザプロンプトをLLMの入力理解に合わせるように最適化し、LLMのパラメータを更新せずにユーザの意図を最大限に実現する。
BPOはモデル非依存であり、実験結果から、BPO対応のChatGPTは、元のバージョンに対する勝利率の22倍、GPT-4に対する10倍の上昇を示す。
重要な点として、モデル整列 LLM は PPO と DPO で整列された同じモデルよりも優れており、また、 \model と PPO または DPO を組み合わせることで、さらなるパフォーマンス向上をもたらす。
コードとデータセットはhttps://github.com/thu-coai/bpoでリリースされる。
関連論文リスト
- Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning [18.763247227949822]
大規模言語モデル(LLM)はゼロショットプロンプトと少数ショットプロンプトを使用して自然言語生成に優れる。
BERTベースのようなエンコーダのみのモデルは、GLUEやSuperGLUEのようなベンチマークでLLMより優れている。
本稿では,LLMのNLU能力を高めるために,SFTとPPOの2つのアプローチについて検討する。
論文 参考訳(メタデータ) (2024-10-14T19:16:56Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - Bootstrapping Language Models with DPO Implicit Rewards [45.68366127605774]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。
本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。
DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-14T06:57:18Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [16.99550556866219]
Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデル(LLM)を人間の好みに合わせるために最も広く使われている手法である。
学術ベンチマークでは、最先端の結果は直接選好最適化(DPO)のような報酬のない手法によって達成されることが多い。
PPOは、あらゆるケースにおいて他のアライメント手法を超越し、挑戦的なコード競争において最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2024-04-16T16:51:53Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。