論文の概要: Guiding Large Language Models via Directional Stimulus Prompting
- arxiv url: http://arxiv.org/abs/2302.11520v3
- Date: Fri, 7 Jul 2023 01:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 15:45:30.177185
- Title: Guiding Large Language Models via Directional Stimulus Prompting
- Title(参考訳): 方向刺激法による大規模言語モデルの誘導
- Authors: Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Jianfeng Gao,
Xifeng Yan
- Abstract要約: 指向性刺激プロンプト(Directional Stimulus Prompting)と呼ばれる新しいプロンプトフレームワークを導入する。
このフレームワークは、より大きな言語モデルに対するよりきめ細かいガイダンスと制御を提供する。
要約および対話応答生成タスクの枠組みを評価する。
- 参考スコア(独自算出の注目度): 89.64896309628232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel prompting framework called Directional Stimulus
Prompting for guiding black-box large language models (LLMs) toward desired
outputs. The framework introduces a new component called directional stimulus
into the prompt, providing more fine-grained guidance and control over LLMs.
The directional stimulus serves as hints or cues for each input query to guide
LLMs toward the desired output, such as keywords that the desired summary
should include for summarization. We utilize a small tunable model (e.g., T5)
to generate such directional stimulus for each query, allowing us to optimize
black-box LLMs by optimizing a small policy model. This policy model can be
trained through 1) supervised fine-tuning using labeled data and 2)
reinforcement learning from offline or online rewards to explore directional
stimulus that better aligns LLMs with desired behaviors. We evaluate our
framework on summarization and dialogue response generation tasks. Experimental
results show that our framework consistently improves ChatGPT's performance
over standard prompting with a small collection of training data, and
reinforcement learning further improves the performance. Notably, on the
MultWOZ dataset, our framework enables ChatGPT to achieve a remarkable 41.4%
improvement in its combined score with only 80 dialogues, matching or even
surpassing the performance of some fully trained state-of-the-art models. We
have made our code publicly available.
- Abstract(参考訳): 本稿では,ブラックボックス大言語モデル(llm)を所望の出力に導く方向刺激プロンプトと呼ばれる新しいプロンプトフレームワークを提案する。
このフレームワークは、方向刺激と呼ばれる新しいコンポーネントをプロンプトに導入し、よりきめ細かいガイダンスとLSMの制御を提供する。
方向刺激は各入力クエリのヒントや手がかりとして機能し、所望の要約に含めるキーワードなど、所望の出力に向けてLSMを誘導する。
我々は、小さな調整可能なモデル(例えば、T5)を使用して、クエリ毎にこのような方向刺激を生成し、小さなポリシーモデルを最適化することで、ブラックボックスLLMを最適化する。
このポリシーモデルは、トレーニングできます
1)ラベル付きデータを用いた教師付き微調整
2) オフラインやオンラインの報酬から強化学習を行い, LLMを望ましい行動に整合させる指向性刺激を探究する。
要約と対話応答生成タスクの枠組みを評価した。
実験の結果,我々のフレームワークは,トレーニングデータの少ないコレクションで,標準プロンプトよりもchatgptのパフォーマンスを一貫して向上させ,強化学習によりパフォーマンスがさらに向上することがわかった。
特に、MultWOZデータセットにおいて、我々のフレームワークはChatGPTの合計スコアがわずか80の対話で41.4%向上し、完全に訓練された最先端モデルのパフォーマンスをマッチングまたは超えることを可能にする。
私たちはコードを公開しました。
関連論文リスト
- CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential
Behavior Comprehension in Recommendation [44.89764672511655]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。