論文の概要: Prompt-based methods may underestimate large language models' linguistic
generalizations
- arxiv url: http://arxiv.org/abs/2305.13264v1
- Date: Mon, 22 May 2023 17:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:00:15.619039
- Title: Prompt-based methods may underestimate large language models' linguistic
generalizations
- Title(参考訳): プロンプトベース手法は大規模言語モデルの言語一般化を過小評価するかもしれない
- Authors: Jennifer Hu and Roger Levy
- Abstract要約: モデルによる英語の知識の測定方法として,メタ言語的プロンプトと直接確率測定を比較した。
LLMのメタ言語的判断は、表現から直接導出される量よりも劣っている。
以上の結果から, LLMが言語能力に欠けるという決定的な証拠として, メタリング主義的プロンプトに依存する否定的な結果が得られないことが示唆された。
- 参考スコア(独自算出の注目度): 23.638345371971102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting is now a dominant method for evaluating the linguistic knowledge of
large language models (LLMs). While other methods directly read out models'
probability distributions over strings, prompting requires models to access
this internal information by processing linguistic input, thereby implicitly
testing a new type of emergent ability: metalinguistic judgment. In this study,
we compare metalinguistic prompting and direct probability measurements as ways
of measuring models' knowledge of English. Broadly, we find that LLMs'
metalinguistic judgments are inferior to quantities directly derived from
representations. Furthermore, consistency gets worse as the prompt diverges
from direct measurements of next-word probabilities. Our findings suggest that
negative results relying on metalinguistic prompts cannot be taken as
conclusive evidence that an LLM lacks a particular linguistic competence. Our
results also highlight the lost value with the move to closed APIs where access
to probability distributions is limited.
- Abstract(参考訳): プロンプティングは、現在、大規模言語モデル(LLM)の言語知識を評価する主要な方法である。
他の方法では、文字列上のモデルの確率分布を直接読み取るが、プロンプトでは、言語入力を処理することによって、モデルが内部情報にアクセスする必要がある。
本研究では,メタ言語的プロンプトと直接確率測定を,モデルによる英語の知識の測定方法として比較した。
概して、llmsのメタリング的判断は表現から直接導かれる量よりも劣っていることが分かる。
さらに、次の単語の確率を直接測定することで、一貫性が悪化する。
以上の結果から, LLMが言語能力に欠ける決定的な証拠として, メタリング主義的プロンプトに依存する否定的な結果が得られないことが示唆された。
また,確率分布へのアクセスが制限されたクローズドAPIへの移行に伴う損失価値も強調した。
関連論文リスト
- Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - How to Compute the Probability of a Word [45.23856093235994]
本稿では,単語確率の正しい計算法を導出する。
確率計算における広範囲なバグの修正は,文理解および語彙最適化分析における測定結果に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-20T17:59:42Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - A novel approach to measuring the scope of patent claims based on probabilities obtained from (large) language models [0.0]
本研究は,特許クレームの範囲を,このクレームに含まれる自己情報の相互性として測定することを提案する。
クレームを定義するのに必要な情報が驚くほど、その範囲は狭くなる。
論文 参考訳(メタデータ) (2023-09-17T16:50:07Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。