論文の概要: Guiding Large Language Models via Directional Stimulus Prompting
- arxiv url: http://arxiv.org/abs/2302.11520v2
- Date: Fri, 7 Apr 2023 18:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 20:45:58.300689
- Title: Guiding Large Language Models via Directional Stimulus Prompting
- Title(参考訳): 方向刺激法による大規模言語モデルの誘導
- Authors: Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Jianfeng Gao,
Xifeng Yan
- Abstract要約: 我々は、調整可能な言語モデル(LM)を用いて、ブラックボックス凍結大言語モデル(LLM)のガイダンスを提供する新しいフレームワーク、Directional Stimulus Promptingを導入する。
我々は、各入力の方向刺激として個別のトークンを生成するためにポリシーLMを訓練する。
次に、方向刺激を元の入力と組み合わせてLLMに入力し、その生成を所望の目標に向けて誘導する。
- 参考スコア(独自算出の注目度): 89.64896309628232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new framework, Directional Stimulus Prompting, that uses a
tuneable language model (LM) to provide guidance for the black-box frozen large
language model (LLM) on downstream tasks. Unlike prior work that manually or
automatically finds the optimal prompt for each task, we train a policy LM to
generate discrete tokens as directional stimulus of each input, which is a
hint/cue such as keywords of an article for summarization. The directional
stimulus is then combined with the original input and fed into the LLM to guide
its generation toward the desired target. The policy LM can be trained through
1) supervised learning from annotated data and 2) reinforcement learning from
offline and online rewards to explore directional stimulus that better aligns
LLMs with human preferences. This framework is flexibly applicable to various
LMs and tasks. To verify its effectiveness, we apply our framework to
summarization and dialogue response generation tasks. Experimental results
demonstrate that it can significantly improve LLMs' performance with a small
collection of training data: a T5 (780M) trained with 2,000 samples from the
CNN/Daily Mail dataset improves Codex (175B)'s performance by 9.0% in ROUGE-Avg
scores; only 80 dialogues can boost the combined score by 39.7%, achieving
comparable or even better performance than some fully trained models on the
MultiWOZ dataset. We have made our code publicly available.
- Abstract(参考訳): 我々は、下流タスクにおけるブラックボックス凍結大言語モデル(LLM)のガイダンスを提供するために、チューニング可能な言語モデル(LM)を使用する新しいフレームワーク、Directional Stimulus Promptingを導入する。
各タスクに対して最適なプロンプトを手動または自動で検出する以前の作業とは異なり、各入力の方向刺激として個別トークンを生成するためにポリシーLMを訓練する。
次に方向刺激を元の入力と組み合わせてLLMに入力し、その生成を所望の目標に向けて導く。
ポリシーLMは、トレーニングできる
1)注釈データからの教師付き学習と
2) オフラインとオンラインの報酬から強化学習を行い, LLMと人間の嗜好の整合性を高める指向性刺激を探究した。
このフレームワークは様々なLMやタスクに柔軟に適用できる。
その有効性を検証するために,本フレームワークを要約および対話応答生成タスクに適用する。
CNN/Daily Mailデータセットから2,000のサンプルでトレーニングされたT5 (780M)は、ROUGE-Avgスコアの9.0%のコードx (175B)のパフォーマンスを改善する。
私たちはコードを公開しました。
関連論文リスト
- Salient Information Prompting to Steer Content in Prompt-based Abstractive Summarization [4.9201947803787744]
大規模言語モデル (LLMs) は、プロンプト技術を用いて、ドメイン間の流動的な要約を生成することができる。
キーフレーズをプロンプトに追加することで、ROUGE F1とリコールが改善されることを示す。
本稿では,有意なキーフレーズを抽出する軽量モデルであるKeyphrase Signal Extractor (SigExt)を紹介する。
論文 参考訳(メタデータ) (2024-10-03T17:54:56Z) - zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。
LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。