Fugu-MT 論文翻訳(概要): Black-Box Prompt Optimization: Aligning Large Language Models without Model Training

論文の概要: Black-Box Prompt Optimization: Aligning Large Language Models without Model Training

arxiv url: http://arxiv.org/abs/2311.04155v2
Date: Wed, 8 Nov 2023 04:21:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 12:49:58.968893
Title: Black-Box Prompt Optimization: Aligning Large Language Models without Model Training
Title（参考訳）: Black-Box Prompt Optimization: モデルトレーニングなしで大規模言語モデルを調整する
Authors: Jiale Cheng, Xiao Liu, Kehan Zheng, Pei Ke, Hongning Wang, Yuxiao Dong, Jie Tang, Minlie Huang
Abstract要約: 大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めている。 LLMは人間の意図とよく一致しないことが多く、それに対して追加の治療、すなわちアライメントの問題を要求する。この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。
参考スコア（独自算出の注目度）: 99.85585239956856
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown impressive success in various applications. However, these models are often not well aligned with human intents, which calls for additional treatments on them, that is, the alignment problem. To make LLMs better follow user instructions, existing alignment methods mostly focus on further training them. However, the extra training of LLMs are usually expensive in terms of GPU compute; worse still, LLMs of interest are oftentimes not accessible for user-demanded training, such as GPTs. In this work, we take a different perspective -- Black-Box Prompt Optimization (BPO) -- to perform alignments. The idea is to optimize user prompts to suit LLMs' input understanding, so as to best realize users' intents without updating LLMs' parameters. BPO is model-agnostic and the empirical results demonstrate that the BPO-aligned ChatGPT yields a 22% increase in the win rate against its original version, and 10% for GPT-4. Importantly, the BPO-aligned LLMs can outperform the same models aligned by PPO and DPO, and it also brings additional performance gains when combining BPO with PPO or DPO. Code and datasets are released at https://github.com/thu-coai/BPO.
Abstract（参考訳）: 大規模言語モデル(llm)は様々なアプリケーションで素晴らしい成功を収めている。しかしながら、これらのモデルは人間の意図とよく一致しないことが多く、それに対して追加的な治療、すなわちアライメントの問題を要求する。 LLMがユーザー指示に従うのを良くするために、既存のアライメントメソッドは主にそれらをさらに訓練することに焦点を当てている。しかし、LLMの余分なトレーニングは通常GPU計算の点で高価であり、さらに悪いことに、LPMはGPTのようなユーザ要求のトレーニングではアクセスできないことが多い。この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。ユーザプロンプトをLLMの入力理解に合わせるように最適化し、LLMのパラメータを更新せずにユーザの意図を最大限に実現する。 BPOはモデル非依存であり, 実験結果から, BPO配向ChatGPTは元のバージョンに対して22%上昇し, GPT-4では10%上昇した。重要な点として、BPOアライメントLLMは、PPOとDPOで整列された同じモデルよりも優れており、BPOとPPOまたはDPOを組み合わせる際のさらなる性能向上をもたらす。コードとデータセットはhttps://github.com/thu-coai/bpoでリリースされる。

関連論文リスト

Rethinking Prompt Optimizers: From Prompt Merits to Optimization [14.01541576309104]
MePOは、メリット対応のプロンプトから構築された、メリット誘導型で軽量で、ローカルにデプロイ可能なプロンプトトレーニングデータセットである。 MePOはオンライン最適化を避け、コストとプライバシの懸念を低減し、明確で解釈可能なメリットを学習することで、大規模な推論モデルと軽量推論モデルの両方に効果的に一般化する。
論文参考訳（メタデータ） (2025-05-15T03:31:37Z)
Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [50.16340812031201]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,その信念を更新しないことを示す。我々は、最適ベイズモデルの予測を模倣するように訓練することで、ベイズ的な推論をLLMに教える。
論文参考訳（メタデータ） (2025-03-21T20:13:04Z)
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback [40.01227095901647]
大規模言語モデル(LLM)は、優れたパフォーマンスを示すが、リトレーニングなしに素早く人間の好みに適応する柔軟性に欠ける。本稿では,LLM出力と推論時の人間の嗜好を一致させるフレームワークであるテスト時間優先最適化(TPO)を紹介する。本研究は,TPOをテスト時間優先最適化の実用的で軽量な代替手段として確立し,ハエのアライメントを実現している。
論文参考訳（メタデータ） (2025-01-22T14:15:46Z)
FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings [40.605411087380226]
我々は、モデルがすでに正しくランク付けできるようなペアの理解を高めることを優先するDPO変種であるFocalPOを紹介した。視覚タスクで使用されるFocal LossにインスパイアされたFocalPOは、動的にDPO損失をスケールするために変調係数を追加することでこれを達成している。
論文参考訳（メタデータ） (2025-01-11T21:41:27Z)
Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning [18.763247227949822]
大規模言語モデル(LLM)はゼロショットプロンプトと少数ショットプロンプトを使用して自然言語生成に優れる。 BERTベースのようなエンコーダのみのモデルは、GLUEやSuperGLUEのようなベンチマークでLLMより優れている。本稿では,LLMのNLU能力を高めるために,SFTとPPOの2つのアプローチについて検討する。
論文参考訳（メタデータ） (2024-10-14T19:16:56Z)
Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文参考訳（メタデータ） (2024-08-19T09:29:31Z)
Bootstrapping Language Models with DPO Implicit Rewards [45.68366127605774]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。 DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文参考訳（メタデータ） (2024-06-14T06:57:18Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。 ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文参考訳（メタデータ） (2024-04-25T17:39:50Z)
Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study [16.99550556866219]
Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデル(LLM)を人間の好みに合わせるために最も広く使われている手法である。学術ベンチマークでは、最先端の結果は直接選好最適化(DPO)のような報酬のない手法によって達成されることが多い。 PPOは、あらゆるケースにおいて他のアライメント手法を超越し、挑戦的なコード競争において最先端の結果を得ることができることを示す。
論文参考訳（メタデータ） (2024-04-16T16:51:53Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。 LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文参考訳（メタデータ） (2024-02-02T20:08:10Z)
Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文参考訳（メタデータ） (2023-06-30T11:32:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。