論文の概要: Prompting is not a substitute for probability measurements in large
language models
- arxiv url: http://arxiv.org/abs/2305.13264v2
- Date: Mon, 23 Oct 2023 14:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 12:15:44.366373
- Title: Prompting is not a substitute for probability measurements in large
language models
- Title(参考訳): プロンプトは大規模言語モデルにおける確率測定の代用ではない
- Authors: Jennifer Hu and Roger Levy
- Abstract要約: モデルの言語的知識を測定する手段として,メタ言語的プロンプトと直接確率測定を比較した。
以上の結果から, LLMが特定の言語的一般化を欠いているという決定的な証拠として, メタリング主義的プロンプトに依存する否定的な結果が認められないことが示唆された。
また,確率分布へのアクセスが制限されたクローズドAPIへの移行によって失われる価値も強調した。
- 参考スコア(独自算出の注目度): 22.790531588072245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting is now a dominant method for evaluating the linguistic knowledge of
large language models (LLMs). While other methods directly read out models'
probability distributions over strings, prompting requires models to access
this internal information by processing linguistic input, thereby implicitly
testing a new type of emergent ability: metalinguistic judgment. In this study,
we compare metalinguistic prompting and direct probability measurements as ways
of measuring models' linguistic knowledge. Broadly, we find that LLMs'
metalinguistic judgments are inferior to quantities directly derived from
representations. Furthermore, consistency gets worse as the prompt query
diverges from direct measurements of next-word probabilities. Our findings
suggest that negative results relying on metalinguistic prompts cannot be taken
as conclusive evidence that an LLM lacks a particular linguistic
generalization. Our results also highlight the value that is lost with the move
to closed APIs where access to probability distributions is limited.
- Abstract(参考訳): プロンプティングは、現在、大規模言語モデル(LLM)の言語知識を評価する主要な方法である。
他の方法では、文字列上のモデルの確率分布を直接読み取るが、プロンプトでは、言語入力を処理することによって、モデルが内部情報にアクセスする必要がある。
本研究では,モデルの言語知識を計測する方法として,メタリング的プロンシングと直接確率測定を比較した。
概して、llmsのメタリング的判断は表現から直接導かれる量よりも劣っていることが分かる。
さらに、プロンプトクエリが次の単語の確率の直接測定から逸脱するにつれて、一貫性が悪化する。
以上の結果から, LLMが特定の言語的一般化を欠いているという決定的な証拠として, メタリング主義的プロンプトに依存する否定的な結果が認められないことが示唆された。
また,確率分布へのアクセスが制限されたクローズドAPIへの移行によって失われる価値も強調した。
関連論文リスト
- Fact-Checking the Output of Large Language Models via Token-Level
Uncertainty Quantification [119.38495860737929]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Distinguishing the Knowable from the Unknowable with Language Models [15.471748481627143]
地中真理確率の欠如において、与えられた不確実性を解き放つために、より大きなモデルが地中真理の代用として現れるような設定を探索する。
凍結, 事前訓練されたモデルの埋め込みを訓練した小さな線形プローブが, トークンレベルでより大きなモデルがより自信を持つようになる時期を正確に予測することを示した。
我々は,同じタスクにおいて非自明な精度を実現する,完全に教師なしの手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:22:49Z) - A novel approach to measuring the scope of patent claims based on probabilities obtained from (large) language models [0.0]
本研究は,特許クレームの範囲を,このクレームに含まれる自己情報の相互性として測定することを提案する。
クレームを定義するのに必要な情報が驚くほど、その範囲は狭くなる。
論文 参考訳(メタデータ) (2023-09-17T16:50:07Z) - Generating with Confidence: Uncertainty Quantification for Black-box
Large Language Models [42.30291103270481]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られる可能性のある選択的なNLGに適用し、いくつかの信頼/不確実性指標を提案し、比較する。
その結果, セマンティックな分散の簡易な測定基準が, LLM応答の質の信頼性の高い予測因子であることが判明した。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。