論文の概要: Guiding Large Language Models via Directional Stimulus Prompting
- arxiv url: http://arxiv.org/abs/2302.11520v4
- Date: Mon, 9 Oct 2023 21:01:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 14:36:22.016329
- Title: Guiding Large Language Models via Directional Stimulus Prompting
- Title(参考訳): 方向刺激法による大規模言語モデルの誘導
- Authors: Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Jianfeng Gao,
Xifeng Yan
- Abstract要約: 我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
- 参考スコア(独自算出の注目度): 114.84930073977672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Directional Stimulus Prompting, a novel framework for guiding
black-box large language models (LLMs) toward specific desired outputs. Instead
of directly adjusting LLMs, our method employs a small tunable policy model
(e.g., T5) to generate an auxiliary directional stimulus prompt for each input
instance. These directional stimulus prompts act as nuanced, instance-specific
hints and clues to guide LLMs in generating desired outcomes, such as including
specific keywords in the generated summary. Our approach sidesteps the
challenges of direct LLM tuning by optimizing the policy model to explore
directional stimulus prompts that align LLMs with desired behaviors. The policy
model can be optimized through 1) supervised fine-tuning using labeled data and
2) reinforcement learning from offline or online rewards based on the LLM's
output. We assess our method across summarization, dialogue response
generation, and chain-of-thought reasoning tasks. Our experiments demonstrate
that the framework consistently improves LLMs' (e.g., ChatGPT, Codex,
InstructGPT) performance on these supervised tasks using minimal labeled data.
Notably, using just 80 dialogues on the MultiWOZ dataset, our approach enhances
ChatGPT's performance by an impressive 41.4%, matching or surpassing some fully
supervised start-of-the-art models. Additionally, the instance-specific
chain-of-thought prompt generated by our approach improves InstructGPT's
reasoning accuracy compared to human-crafted or automatically generated
prompts. The code and data are publicly available at
\url{https://github.com/Leezekun/Directional-Stimulus-Prompting}.
- Abstract(参考訳): 我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデル(例えばT5)を用いて、入力インスタンス毎に補助的な指向性刺激プロンプトを生成する。
これらの方向刺激は、生成された要約に特定のキーワードを含めるなど、所望の結果を生成するためにLSMをガイドする、ニュアンスでインスタンス固有のヒントやヒントとして振舞う。
提案手法は,llmを望ましい行動に合わせる方向刺激プロンプトを探索するために,政策モデルを最適化することで,直接llmチューニングの課題を回避している。
ポリシーモデルは最適化できる
1)ラベル付きデータを用いた教師付き微調整
2) llmの出力に基づくオフラインまたはオンライン報酬からの強化学習。
本手法は,要約,対話応答生成,思考連鎖推論タスクを通じて評価する。
実験の結果、最小ラベル付きデータを用いて、これらの教師付きタスクにおけるLLM(ChatGPT, Codex, InstructGPT)の性能を継続的に改善することが示された。
特に、MultiWOZデータセット上の80のダイアログを使用することで、ChatGPTのパフォーマンスを41.4%向上させ、完全に教師付きされたスタートオブザアーティモデルに適合または超えるようにした。
さらに,本手法により生成された事例特異的チェーン・オブ・シークレット・プロンプトは,人造または自動生成プロンプトと比較してインストラクションGPTの推論精度を向上する。
コードとデータは \url{https://github.com/Leezekun/Directional-Stimulus-Prompting} で公開されている。
関連論文リスト
- Salient Information Prompting to Steer Content in Prompt-based Abstractive Summarization [4.9201947803787744]
大規模言語モデル (LLMs) は、プロンプト技術を用いて、ドメイン間の流動的な要約を生成することができる。
キーフレーズをプロンプトに追加することで、ROUGE F1とリコールが改善されることを示す。
本稿では,有意なキーフレーズを抽出する軽量モデルであるKeyphrase Signal Extractor (SigExt)を紹介する。
論文 参考訳(メタデータ) (2024-10-03T17:54:56Z) - zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。
LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。