論文の概要: Probing neural language models for understanding of words of estimative
probability
- arxiv url: http://arxiv.org/abs/2211.03358v1
- Date: Mon, 7 Nov 2022 08:29:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:25:53.874835
- Title: Probing neural language models for understanding of words of estimative
probability
- Title(参考訳): 推定確率の単語理解のためのニューラルネットワークモデルの提案
- Authors: Damien Sileo and Marie-Francine Moens
- Abstract要約: 推定確率の単語(WEP)は、文の妥当性の表現である。
ニューラルネットワーク処理モデルが各WEPに関連付けられた合意確率レベルを捕捉する能力を測定する。
- 参考スコア(独自算出の注目度): 21.072862529656287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Words of estimative probability (WEP) are expressions of a statement's
plausibility (probably, maybe, likely, doubt, likely, unlikely, impossible...).
Multiple surveys demonstrate the agreement of human evaluators when assigning
numerical probability levels to WEP. For example, highly likely corresponds to
a median chance of 0.90+-0.08 in Fagen-Ulmschneider (2015)'s survey. In this
work, we measure the ability of neural language processing models to capture
the consensual probability level associated to each WEP. Firstly, we use the
UNLI dataset (Chen et al., 2020) which associates premises and hypotheses with
their perceived joint probability p, to construct prompts, e.g. "[PREMISE].
[WEP], [HYPOTHESIS]." and assess whether language models can predict whether
the WEP consensual probability level is close to p. Secondly, we construct a
dataset of WEP-based probabilistic reasoning, to test whether language models
can reason with WEP compositions. When prompted "[EVENTA] is likely. [EVENTB]
is impossible.", a causal language model should not express that [EVENTA&B] is
likely. We show that both tasks are unsolved by off-the-shelf English language
models, but that fine-tuning leads to transferable improvement.
- Abstract(参考訳): 推定確率 (etimative probability, wep) は、ある言明の正当性を表す表現である(おそらく、おそらく、疑わしい、あり得ない、あり得ない、あり得ない、不可能...)。
複数の調査では、数値確率レベルをWEPに割り当てる際の人間評価者の合意が示されている。
例えば、Fagen-Ulmschneider (2015) の調査では、0.90+-0.08と高い確率で一致している。
本研究では,ニューラルネットワーク処理モデルを用いて,各WEPに関連付けられた合意確率レベルを計測する。
まず、UNLIデータセット(Chen et al., 2020)を用いて、前提条件と仮説を認識された共同確率pに関連付け、例えば「[PREMISE][WEP], [HYPOTHESIS]」などのプロンプトを構築し、WEP合意確率レベルがpに近いかどうかを言語モデルが予測できるかどうかを評価する。
次に,WEP を用いた確率論的推論のデータセットを構築し,WEP 合成で言語モデルが推論できるかどうかを検証する。
eventa]はありそうにない、[eventb]は不可能”と促されたとき、因果言語モデルは[eventa&b]がありそうなことを表現すべきではありません。
両タスクは、既成の英語モデルでは未解決であるが、微調整は伝達可能な改善をもたらす。
関連論文リスト
- Perceptions of Linguistic Uncertainty by Language Models and Humans [26.69714008538173]
言語モデルが不確実性の言語表現を数値応答にどうマッピングするかを検討する。
10モデル中7モデルで不確実性表現を確率的応答に人間的な方法でマッピングできることが判明した。
この感度は、言語モデルは以前の知識に基づいてバイアスの影響を受けやすいことを示している。
論文 参考訳(メタデータ) (2024-07-22T17:26:12Z) - A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。
我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - An Evaluation of Estimative Uncertainty in Large Language Models [3.04503073434724]
推定の不確実性は長い間、CIAなどの諜報機関を含む研究領域であった。
本研究は,一般用大言語モデル(LLM)における推定の不確かさを,人間と相互に比較した。
GPT-3.5 や GPT-4 のような LLM は人間の推定値と一致している。
論文 参考訳(メタデータ) (2024-05-24T03:39:31Z) - Language Models (Mostly) Know What They Know [10.836210010868932]
言語モデルが自身の主張の有効性を評価し,どの疑問に正しく答えられるかを予測する。
モデルが「P(IK)」を予測できるかどうか,質問に対する「私が知っている」確率を,特定の回答に言及せずに検討する。
論文 参考訳(メタデータ) (2022-07-11T22:59:39Z) - Probabilistic Conformal Prediction Using Conditional Random Samples [73.26753677005331]
PCPは、不連続な予測セットによって対象変数を推定する予測推論アルゴリズムである。
効率的で、明示的または暗黙的な条件生成モデルと互換性がある。
論文 参考訳(メタデータ) (2022-06-14T03:58:03Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Learning a Word-Level Language Model with Sentence-Level Noise
Contrastive Estimation for Contextual Sentence Probability Estimation [3.1040192682787415]
文や単語列の確率分布を推測することは自然言語処理の重要なプロセスである。
単語レベルの言語モデル(LM)は、単語列の共同確率を計算するために広く採用されているが、文確率推定(SPE)に十分長いコンテキストの取得が困難である。
最近の研究は、リカレントニューラルネットワーク(RNN)を用いた文レベルノイズコントラスト推定(NCE)を用いたトレーニング手法を導入している。
本手法を単純な単語レベルのRNN LMに適用し,ネットワークアーキテクチャではなく文レベルのNCEトレーニングの効果に着目した。
論文 参考訳(メタデータ) (2021-03-14T09:17:37Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z) - Predicting Performance for Natural Language Processing Tasks [128.34208911925424]
実験条件を入力として,NLP実験の評価スコアを予測する回帰モデルを構築した。
9つの異なるNLPタスクを実験した結果、予測器は目に見えない言語や異なるモデリングアーキテクチャに対して有意義な予測を生成できることがわかった。
論文 参考訳(メタデータ) (2020-05-02T16:02:18Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。