論文の概要: What's the Magic Word? A Control Theory of LLM Prompting
- arxiv url: http://arxiv.org/abs/2310.04444v2
- Date: Tue, 10 Oct 2023 10:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 18:41:00.517372
- Title: What's the Magic Word? A Control Theory of LLM Prompting
- Title(参考訳): 魔法の言葉って何?
LLMプロンプティングの制御理論
- Authors: Aman Bhargava, Cameron Witkowski, Manav Shah, Matt Thomson
- Abstract要約: LLMの最適制御問題として,プロンプトエンジニアリングを定式化する。
トークンのシーケンスが与えられたら、常に LLM が最終トークンを正確に予測できるようなプロンプトが存在するだろうか?
5,000のWikiText因果的言語モデリングタスクにおいて、Falcon-7b、Llama-7b、Falcon-40bを含む大規模な言語モデルのパネルの$k-epsilon$制御可能性を計算する。
- 参考スコア(独自算出の注目度): 0.8192907805418581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt engineering is effective and important in the deployment of LLMs but
is poorly understood mathematically. Here, we formalize prompt engineering as
an optimal control problem on LLMs -- where the prompt is considered a control
variable for modulating the output distribution of the LLM. Within this
framework, we ask a simple question: given a sequence of tokens, does there
always exist a prompt we can prepend that will steer the LLM toward accurately
predicting the final token? We call such an optimal prompt the magic word since
prepending the prompt causes the LLM to output the correct answer. If magic
words exist, can we find them? If so, what are their properties? We offer
analytic analysis on the controllability of the self-attention head where we
prove a bound on controllability as a function of the singular values of its
weight matrices. We take inspiration from control theory to propose a metric
called $k-\epsilon$ controllability to characterize LLM steerability. We
compute the $k-\epsilon$ controllability of a panel of large language models,
including Falcon-7b, Llama-7b, and Falcon-40b on 5000 WikiText causal language
modeling tasks. Remarkably, we find that magic words of 10 tokens or less exist
for over 97% of WikiText instances surveyed for each model.
- Abstract(参考訳): プロンプト工学はLLMの展開において効果的で重要であるが、数学的には理解されていない。
そこで我々は, LLMの出力分布を制御変数として, LLMの最適制御問題としてプロンプト工学を定式化する。
このフレームワークの中で、簡単な質問をする: トークンのシーケンスが与えられたら、常に、最終トークンを正確に予測するために LLM を制御できるプロンプトが存在するだろうか?
LLMが正しい答えを出力する原因となるプロンプトを事前に予測するため、このような最適なプロンプトをマジックワードと呼ぶ。
魔法の言葉があれば、見つけられるだろうか?
もしそうなら、それらの特性は何でしょう?
重み行列の特異値の関数としての可制御性に対する有界性を証明する自己アテンションヘッドの可制御性の解析的解析を行う。
我々は制御理論からインスピレーションを得て、LLMステアビリティを特徴づけるための$k-\epsilon$ controllabilityという計量を提案する。
5000 wikitextの因果的言語モデリングタスクで、falcon-7b、llama-7b、falcon-40bを含む多数の大きな言語モデルのパネルで、$k-\epsilon$の制御可能性を計算する。
注目すべきは、各モデルで調査されたWikiTextインスタンスの97%以上に対して、10トークン以下のマジックワードが存在することだ。
関連論文リスト
- Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。
これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。
次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文 参考訳(メタデータ) (2024-01-30T19:03:49Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Learning a Latent Simplex in Input-Sparsity Time [58.30321592603066]
我々は、$AinmathbbRdtimes n$へのアクセスを考えると、潜入$k$-vertex simplex $KsubsetmathbbRdtimes n$を学習する問題を考える。
実行時間における$k$への依存は、トップ$k$特異値の質量が$a$であるという自然な仮定から不要であることを示す。
論文 参考訳(メタデータ) (2021-05-17T16:40:48Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。