論文の概要: Black-Box Prompt Optimization: Aligning Large Language Models without
Model Training
- arxiv url: http://arxiv.org/abs/2311.04155v2
- Date: Wed, 8 Nov 2023 04:21:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 12:49:58.968893
- Title: Black-Box Prompt Optimization: Aligning Large Language Models without
Model Training
- Title(参考訳): Black-Box Prompt Optimization: モデルトレーニングなしで大規模言語モデルを調整する
- Authors: Jiale Cheng, Xiao Liu, Kehan Zheng, Pei Ke, Hongning Wang, Yuxiao
Dong, Jie Tang, Minlie Huang
- Abstract要約: 大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めている。
LLMは人間の意図とよく一致しないことが多く、それに対して追加の治療、すなわちアライメントの問題を要求する。
この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。
- 参考スコア(独自算出の注目度): 99.85585239956856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown impressive success in various
applications. However, these models are often not well aligned with human
intents, which calls for additional treatments on them, that is, the alignment
problem. To make LLMs better follow user instructions, existing alignment
methods mostly focus on further training them. However, the extra training of
LLMs are usually expensive in terms of GPU compute; worse still, LLMs of
interest are oftentimes not accessible for user-demanded training, such as
GPTs. In this work, we take a different perspective -- Black-Box Prompt
Optimization (BPO) -- to perform alignments. The idea is to optimize user
prompts to suit LLMs' input understanding, so as to best realize users' intents
without updating LLMs' parameters. BPO is model-agnostic and the empirical
results demonstrate that the BPO-aligned ChatGPT yields a 22% increase in the
win rate against its original version, and 10% for GPT-4. Importantly, the
BPO-aligned LLMs can outperform the same models aligned by PPO and DPO, and it
also brings additional performance gains when combining BPO with PPO or DPO.
Code and datasets are released at https://github.com/thu-coai/BPO.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なアプリケーションで素晴らしい成功を収めている。
しかしながら、これらのモデルは人間の意図とよく一致しないことが多く、それに対して追加的な治療、すなわちアライメントの問題を要求する。
LLMがユーザー指示に従うのを良くするために、既存のアライメントメソッドは主にそれらをさらに訓練することに焦点を当てている。
しかし、LLMの余分なトレーニングは通常GPU計算の点で高価であり、さらに悪いことに、LPMはGPTのようなユーザ要求のトレーニングではアクセスできないことが多い。
この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。
ユーザプロンプトをLLMの入力理解に合わせるように最適化し、LLMのパラメータを更新せずにユーザの意図を最大限に実現する。
BPOはモデル非依存であり, 実験結果から, BPO配向ChatGPTは元のバージョンに対して22%上昇し, GPT-4では10%上昇した。
重要な点として、BPOアライメントLLMは、PPOとDPOで整列された同じモデルよりも優れており、BPOとPPOまたはDPOを組み合わせる際のさらなる性能向上をもたらす。
コードとデータセットはhttps://github.com/thu-coai/bpoでリリースされる。
関連論文リスト
- sDPO: Don't Use Your Data All at Once [11.149898528381902]
本稿では、アライメントチューニングのためのDPO(DPO)の拡張であるステップワイズDPO(SDPO)を提案する。
このアプローチでは、利用可能な選好データセットを分割して、すべてを一度に使用するのではなく、段階的に活用する。
本手法は, DPOトレーニングフレームワーク内で, より正確に整列された参照モデルの使用を容易にすることを実証する。
論文 参考訳(メタデータ) (2024-03-28T09:56:04Z) - ICDPO: Effectively Borrowing Alignment Capability of Others via
In-context Direct Preference Optimization [24.55845271377532]
大規模な言語モデルは、安全なコンテンツの生成を保証するためにヒューマン・プライオリエンス・アライメントに依存している。
In-Context Direct Preference Optimization (ICDPO) と呼ばれる新しい手法を提案する。
ICDPOは、上記インスタントスコアラによって推定された整列応答を生成し、最終性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T17:14:34Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [63.69441506085566]
本稿では,リストワイズ優先最適化(LiPO)フレームワークについて述べる。このフレームワークでは,評価可能な応答のランクリストから,ポリシーをより効率的に学習することができる。
2つの選好アライメントタスクにおいて,LiPO-lambdaがDPOとSLiCよりも明確なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for
LLM Alignment [37.52249093928251]
本稿では,新しい枠組み,相対的フィードバックによる強化学習,新しい軌道方向ポリシー勾配アルゴリズムを提案する。
理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。
実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-30T01:23:22Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。