Fugu-MT 論文翻訳(概要): What's the Magic Word? A Control Theory of LLM Prompting

論文の概要: What's the Magic Word? A Control Theory of LLM Prompting

arxiv url: http://arxiv.org/abs/2310.04444v3
Date: Wed, 3 Jan 2024 06:38:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-04 16:31:19.315003
Title: What's the Magic Word? A Control Theory of LLM Prompting
Title（参考訳）: 魔法の言葉って何? LLMプロンプティングの制御理論
Authors: Aman Bhargava, Cameron Witkowski, Manav Shah, Matt Thomson
Abstract要約: 出力トークン列の到達可能な集合である$R_y(mathbf x_0)$について検討する。正しい次のWikitextトークンのシークエンス$mathbf x_0$は、$kleq 10$トークンのプロンプトで97%以上到達可能である。また、LLM自体が見積もっているように、上位75のトークンは少なくとも85%の時間で、$kleq 10$トークンのプロンプトで到達可能であることも確認しています。
参考スコア（独自算出の注目度）: 0.8192907805418581
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompt engineering is crucial for deploying LLMs but is poorly understood mathematically. We formalize LLM systems as a class of discrete stochastic dynamical systems to explore prompt engineering through the lens of control theory. We investigate the reachable set of output token sequences $R_y(\mathbf x_0)$ for which there exists a control input sequence $\mathbf u$ for each $\mathbf y \in R_y(\mathbf x_0)$ that steers the LLM to output $\mathbf y$ from initial state sequence $\mathbf x_0$. We offer analytic analysis on the limitations on the controllability of self-attention in terms of reachable set, where we prove an upper bound on the reachable set of outputs $R_y(\mathbf x_0)$ as a function of the singular values of the parameter matrices. We present complementary empirical analysis on the controllability of a panel of LLMs, including Falcon-7b, Llama-7b, and Falcon-40b. Our results demonstrate a lower bound on the reachable set of outputs $R_y(\mathbf x_0)$ w.r.t. initial state sequences $\mathbf x_0$ sampled from the Wikitext dataset. We find that the correct next Wikitext token following sequence $\mathbf x_0$ is reachable over 97% of the time with prompts of $k\leq 10$ tokens. We also establish that the top 75 most likely next tokens, as estimated by the LLM itself, are reachable at least 85% of the time with prompts of $k\leq 10$ tokens. Intriguingly, short prompt sequences can dramatically alter the likelihood of specific outputs, even making the least likely tokens become the most likely ones. This control-centric analysis of LLMs demonstrates the significant and poorly understood role of input sequences in steering output probabilities, offering a foundational perspective for enhancing language model system capabilities.
Abstract（参考訳）: llmのデプロイにはプロンプトエンジニアリングが不可欠だが、数学的にはあまり理解されていない。我々はLSMシステムを離散確率力学系のクラスとして形式化し、制御理論のレンズを通して迅速な工学を探求する。制御入力シーケンスが$\mathbf y \in R_y(\mathbf x_0)$に対して$\mathbf u$ が存在し、初期状態シーケンス$\mathbf x_0$ から$\mathbf y$ を出力するために LLM を操縦する。到達可能な集合における自己注意の可制御性の限界について解析的解析を行い、パラメータ行列の特異値の関数として、到達可能な出力の集合上の上界を証明する。我々は, Falcon-7b, Llama-7b, Falcon-40bを含むLLMパネルの制御性に関する相補的実証分析を行った。我々の結果は、Wikitextデータセットからサンプリングされた出力の到達可能な集合に対して$R_y(\mathbf x_0)$ w.r.t.初期状態シーケンス$\mathbf x_0$の低い境界を示す。正しい次のWikitextトークンのシーケンス$\mathbf x_0$は、$k\leq 10$トークンのプロンプトで97%以上到達可能である。 LLM自体が見積もっているように、トップ75の次のトークンは、少なくとも85%は、$k\leq 10$トークンのプロンプトで到達可能であることも確認しています。興味深いことに、短いプロンプトシーケンスは特定の出力の可能性を劇的に変え、最も可能性の低いトークンを最も可能性の高いものにする。このLLMの制御中心解析は、出力確率のステアリングにおける入力シーケンスの意義と理解されていない役割を示し、言語モデルシステム機能を強化するための基礎的な視点を提供する。

関連論文リスト

Learning on LLM Output Signatures for gray-box LLM Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。我々は,既存の手法の近似を理論的に保証するプロセスに対して,トランスフォーマーに基づくアプローチを開発する。提案手法は,グレーボックス設定における幻覚およびデータ汚染検出における優れた性能を実現する。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。理論的な洞察と経験的検証の両方を、近年のモデルで提供します。量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文参考訳（メタデータ） (2025-02-10T20:09:16Z)
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文参考訳（メタデータ） (2024-10-09T23:37:36Z)
LaMsS: When Large Language Models Meet Self-Skepticism [3.1410859223862113]
本稿では,大規模言語モデルの意味理解能力と自己懐疑性を組み合わせたLaMsSを提案する。 LaMsSは、マルチ選択質問とオープンドメイン質問回答ベンチマークの両方のベースラインよりも優れたパフォーマンスを実現している。我々の研究は、さらなる人工知能の自己懐疑論モデルに光を当てている。
論文参考訳（メタデータ） (2024-09-10T15:51:15Z)
LLMs are Not Just Next Token Predictors [0.0]
LLMは、次のトークン予測目標を持つ勾配降下による言語学習の統計モデルである。 LLMは次のトークン予測を用いて設計され、このタスクの成功に基づいてトレーニングされていますが、次のトークン予測器への還元はLLMを短く販売する、というのが私たちの見解です。これを引き出すため、遺伝子の観点から進化と発達を説明する生物学におけるかつての著名な研究プログラムと類似する。
論文参考訳（メタデータ） (2024-08-06T16:36:28Z)
Decoding with Limited Teacher Supervision Requires Understanding When to Trust the Teacher [11.136112399898481]
小規模大規模言語モデル(LLM)は、LLMの監督を効果的に活用して、その生成品質を向上するにはどうすればよいのか? 我々は,初期トークン上でのLLMおよびLLM予測を効果的に集約するアルゴリズムを開発した。提案手法は,従来の復号法よりも一貫した手法であることを示す。
論文参考訳（メタデータ） (2024-06-26T01:16:12Z)
Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文参考訳（メタデータ） (2024-05-26T21:31:59Z)
Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。 LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文参考訳（メタデータ） (2024-05-10T11:44:05Z)
Can Large Language Models Play Games? A Case Study of A Self-Play Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。 Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文参考訳（メタデータ） (2024-03-08T19:16:29Z)
IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact [46.32830393597601]
大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。 IntactKVを提案することで、完全精度モデルからピボットトークンのKVキャッシュを損失なく生成する。
論文参考訳（メタデータ） (2024-03-02T16:05:26Z)
Characterizing Large Language Model Geometry Helps Solve Toxicity Detection and Generation [15.77263269398368]
大規模言語モデル(LLM)は、現在のAIのブレークスルーを促進する。我々は幾何学のレンズを通してLLMの内部機構に光を当てた。我々は,任意の(事前学習された)LLMから抽出できる解釈可能な幾何学的特徴を導出する。
論文参考訳（メタデータ） (2023-12-04T06:01:32Z)
On Learning Latent Models with Multi-Instance Weak Supervision [57.18649648182171]
本稿では,複数の入力インスタンスに関連付けられた遷移関数$sigma$ラベルによって,教師信号が生成される弱い教師付き学習シナリオについて考察する。我々の問題は、潜在的な構造学習やニューロシンボリックな統合など、さまざまな分野で満たされている。
論文参考訳（メタデータ） (2023-06-23T22:05:08Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文参考訳（メタデータ） (2023-04-19T06:00:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。