論文の概要: Prompt Baking
- arxiv url: http://arxiv.org/abs/2409.13697v1
- Date: Wed, 4 Sep 2024 04:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:57:35.266441
- Title: Prompt Baking
- Title(参考訳): プロンプトベーキング
- Authors: Aman Bhargava, Cameron Witkowski, Alexander Detkov, Matt Thomson,
- Abstract要約: LLMの動作を変える2つの主要な方法は、プロンプトと重み更新である。
本稿では, LLM の重みに "baking" プロンプトを組み込む手法を提案する。
すべての実験で、プロンプトは簡単に重み付けの更新に組み込めることが分かりました。
- 参考スコア(独自算出の注目度): 43.07891391296631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two primary ways to change LLM behavior are prompting and weight updates (e.g., fine-tuning). Prompting LLMs is simple and effective, specifying the desired changes explicitly in natural language, whereas weight updates provide more expressive and permanent behavior changes, specified implicitly via training on large datasets. We present a technique for "baking" prompts into the weights of an LLM. Prompt Baking converts a prompt $u$ and initial weights $\theta$ to a new set of weights $\theta_u$ such that new "baked" LLM behaves like the original prompted LLM. Mathematically, we minimize the KL divergence between $P_\theta(\cdot | u)$ and $P_{\theta_u}(\cdot)$, where $P$ is the LLM's probability distribution over token sequences. Across all our experiments, we find prompts can be readily baked into weight updates. Baking chain-of-thought prompts improves zero-shot performance on GSM8K, ASDiv, MBPP, ARC-Easy, ARC-Challenge, and CommonsenseQA benchmarks. Baking news headlines directly updates an LLM's knowledge. And baking instructions & personas alleviates "prompt forgetting" over long sequences. Furthermore, stopping baking early creates "half-baked" models, continuously scaling prompt strength. Baked models retain their sensitivity to further prompting and baking, including re-prompting with the baked-in prompt. Surprisingly, the re-prompted models yield further performance gains in instruction following, as well as math reasoning and coding benchmarks. Taking re-prompting and re-baking to the limit yields a form of iterative self-improvement we call Prompt Pursuit, and preliminary results on instruction following exhibit dramatic performance gains. Finally, we discuss implications for AI safety, continuous model updating, enhancing real-time learning capabilities in LLM-based agents, and generating more stable AI personas.
- Abstract(参考訳): LLMの動作を変える2つの主要な方法は、プロンプトとウェイト更新(例えば、微調整)である。
LLMのプロンプティングは単純で効果的で、自然言語で望まれる変更を明示的に指定するのに対して、重み更新は大きなデータセットでのトレーニングを通じて暗黙的に指定される、より表現力が高く永続的な振る舞いの変化を提供する。
本稿では, LLM の重みに "baking" プロンプトを組み込む手法を提案する。
Prompt Bakingはプロンプト$u$と初期ウェイト$\theta$を新しいウェイトセット$\theta_u$に変換する。
数学的には、$P_\theta(\cdot | u)$と$P_{\theta_u}(\cdot)$の間のKLの発散を最小限に抑える。
すべての実験で、プロンプトは簡単に重み付けの更新に組み込めることが分かりました。
ベーキングチェーン・オブ・シークレットは、GSM8K、ASDiv、MBPP、ARC-Easy、ARC-Challenge、CommonsenseQAベンチマークのゼロショット性能を改善する。
ベーキングニュースの見出しは LLM の知識を直接更新する。
そして、指示やペルソナを焼くことで、長いシーケンスを「忘れるな」ことが軽減される。
さらに、焼くのを早く止めると「半焼」なモデルが生まれ、急激な強度を継続的に拡大する。
焼成されたモデルは、焼成されたプロンプトで再増殖するなど、さらなるプロンプトや焼成に対する感受性を維持している。
驚くべきことに、再試行されたモデルは、その後の命令、および数学推論とコーディングベンチマークにおいてさらなるパフォーマンス向上をもたらす。
再プロンプティングとリベーキングは、我々がPrompt Pursuitと呼ぶ反復的な自己改善の形式となり、劇的なパフォーマンス向上の後に指導の予備的な結果が得られます。
最後に、AIの安全性、継続的なモデル更新、LLMベースのエージェントにおけるリアルタイム学習能力の向上、より安定したAIペルソナの生成などについて論じる。
関連論文リスト
- Black-Box Prompt Optimization: Aligning Large Language Models without Model Training [95.73262836039231]
大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めている。
LLMは人間の意図とよく一致しないことが多いため、追加の治療が必要である。
この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。
論文 参考訳(メタデータ) (2023-11-07T17:31:50Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - InstructZero: Efficient Instruction Optimization for Black-Box Large
Language Models [117.92988284226765]
大規模言語モデル(LLM)は命令従者であるが、異なる状況に最適な命令を見つけることは困難である。
我々は,オープンソースLLMに適用した低次元ソフトプロンプトを最適化し,ブラックボックスLLMの命令を生成する。
InstructZero は,様々な下流タスクにおいて SOTA 自動命令手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-06-05T17:55:22Z) - Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。
重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z) - Investigating the Effectiveness of Task-Agnostic Prefix Prompt for
Instruction Following [44.701091969256055]
本稿では,TAPP(Task-Agnostic Prefix Prompt)を入力にプリプションすることで,各種大規模言語モデル(LLM)の命令追従能力が向上することを示す。
我々は、ベースLLM(命令に従うように微調整されていない)と命令調整モデルの両方がTAPPの恩恵を受けており、平均で34.58%、12.26%の改善が得られた。
論文 参考訳(メタデータ) (2023-02-28T16:06:35Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。