Fugu-MT 論文翻訳(概要): Guiding Large Language Models via Directional Stimulus Prompting

論文の概要: Guiding Large Language Models via Directional Stimulus Prompting

arxiv url: http://arxiv.org/abs/2302.11520v3
Date: Fri, 7 Jul 2023 01:31:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-10 15:45:30.177185
Title: Guiding Large Language Models via Directional Stimulus Prompting
Title（参考訳）: 方向刺激法による大規模言語モデルの誘導
Authors: Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Jianfeng Gao, Xifeng Yan
Abstract要約: 指向性刺激プロンプト(Directional Stimulus Prompting)と呼ばれる新しいプロンプトフレームワークを導入する。このフレームワークは、より大きな言語モデルに対するよりきめ細かいガイダンスと制御を提供する。要約および対話応答生成タスクの枠組みを評価する。
参考スコア（独自算出の注目度）: 89.64896309628232
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel prompting framework called Directional Stimulus Prompting for guiding black-box large language models (LLMs) toward desired outputs. The framework introduces a new component called directional stimulus into the prompt, providing more fine-grained guidance and control over LLMs. The directional stimulus serves as hints or cues for each input query to guide LLMs toward the desired output, such as keywords that the desired summary should include for summarization. We utilize a small tunable model (e.g., T5) to generate such directional stimulus for each query, allowing us to optimize black-box LLMs by optimizing a small policy model. This policy model can be trained through 1) supervised fine-tuning using labeled data and 2) reinforcement learning from offline or online rewards to explore directional stimulus that better aligns LLMs with desired behaviors. We evaluate our framework on summarization and dialogue response generation tasks. Experimental results show that our framework consistently improves ChatGPT's performance over standard prompting with a small collection of training data, and reinforcement learning further improves the performance. Notably, on the MultWOZ dataset, our framework enables ChatGPT to achieve a remarkable 41.4% improvement in its combined score with only 80 dialogues, matching or even surpassing the performance of some fully trained state-of-the-art models. We have made our code publicly available.
Abstract（参考訳）: 本稿では,ブラックボックス大言語モデル(llm)を所望の出力に導く方向刺激プロンプトと呼ばれる新しいプロンプトフレームワークを提案する。このフレームワークは、方向刺激と呼ばれる新しいコンポーネントをプロンプトに導入し、よりきめ細かいガイダンスとLSMの制御を提供する。方向刺激は各入力クエリのヒントや手がかりとして機能し、所望の要約に含めるキーワードなど、所望の出力に向けてLSMを誘導する。我々は、小さな調整可能なモデル(例えば、T5)を使用して、クエリ毎にこのような方向刺激を生成し、小さなポリシーモデルを最適化することで、ブラックボックスLLMを最適化する。このポリシーモデルは、トレーニングできます 1)ラベル付きデータを用いた教師付き微調整 2) オフラインやオンラインの報酬から強化学習を行い, LLMを望ましい行動に整合させる指向性刺激を探究する。要約と対話応答生成タスクの枠組みを評価した。実験の結果,我々のフレームワークは,トレーニングデータの少ないコレクションで,標準プロンプトよりもchatgptのパフォーマンスを一貫して向上させ,強化学習によりパフォーマンスがさらに向上することがわかった。特に、MultWOZデータセットにおいて、我々のフレームワークはChatGPTの合計スコアがわずか80の対話で41.4%向上し、完全に訓練された最先端モデルのパフォーマンスをマッチングまたは超えることを可能にする。私たちはコードを公開しました。

関連論文リスト

Improving Consistency in Large Language Models through Chain of Guidance [9.040736633675136]
Chain of Guidance (CoG)は、大規模言語モデル(LLM)から高度に一貫した出力を生成する多段階プロンプト技術である。我々は、一貫した入出力ペアからなる合成データセットを用いて、一貫した正しい出力を生成する。我々の微調整モデルは、ベースモデルに比べて2倍以上の一貫性があり、微調整プロセスで使用されていないデータセットに対して一貫した出力を生成することにより、強力な一般化能力を示す。
論文参考訳（メタデータ） (2025-02-21T20:41:37Z)
Salient Information Prompting to Steer Content in Prompt-based Abstractive Summarization [4.9201947803787744]
大規模言語モデル (LLMs) は、プロンプト技術を用いて、ドメイン間の流動的な要約を生成することができる。キーフレーズをプロンプトに追加することで、ROUGE F1とリコールが改善されることを示す。本稿では,有意なキーフレーズを抽出する軽量モデルであるKeyphrase Signal Extractor (SigExt)を紹介する。
論文参考訳（メタデータ） (2024-10-03T17:54:56Z)
zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。 LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文参考訳（メタデータ） (2023-12-07T13:53:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。