論文の概要: Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning
- arxiv url: http://arxiv.org/abs/2208.11007v1
- Date: Tue, 23 Aug 2022 14:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 13:09:07.941301
- Title: Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning
- Title(参考訳): ゼロショット常識推論の複雑度ではなく信頼度を評価する
- Authors: Letian Peng, Zuchao Li, Hai Zhao
- Abstract要約: 本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
- 参考スコア(独自算出の注目度): 85.1541170468617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commonsense reasoning is an appealing topic in natural language processing
(NLP) as it plays a fundamental role in supporting the human-like actions of
NLP systems. With large-scale language models as the backbone, unsupervised
pre-training on numerous corpora shows the potential to capture commonsense
knowledge. Current pre-trained language model (PLM)-based reasoning follows the
traditional practice using perplexity metric. However, commonsense reasoning is
more than existing probability evaluation, which is biased by word frequency.
This paper reconsiders the nature of commonsense reasoning and proposes a novel
commonsense reasoning metric, Non-Replacement Confidence (NRC). In detail, it
works on PLMs according to the Replaced Token Detection (RTD) pre-training
objective in ELECTRA, in which the corruption detection objective reflects the
confidence on contextual integrity that is more relevant to commonsense
reasoning than existing probability. Our proposed novel method boosts zero-shot
performance on two commonsense reasoning benchmark datasets and further seven
commonsense question-answering datasets. Our analysis shows that pre-endowed
commonsense knowledge, especially for RTD-based PLMs, is essential in
downstream reasoning.
- Abstract(参考訳): コモンセンス推論は自然言語処理(NLP)における魅力あるトピックであり、NLPシステムの人間的な行動を支援する上で基本的な役割を果たす。
大規模言語モデルをバックボーンとして、多数のコーパスでの教師なし事前学習は、常識的知識を捉える可能性を示している。
現在のプレトレーニング言語モデル(PLM)に基づく推論は、パープレキシティメトリックを使用した伝統的なプラクティスに従う。
しかし、コモンセンス推論は、単語頻度に偏った既存の確率評価以上のものである。
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
詳しくは、electraの代替トークン検出(rtd)事前学習目標に従ってplmで動作し、腐敗検出対象は、既存の確率よりも常識的推論に関係のある文脈的完全性に対する信頼を反映している。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットのゼロショット性能を向上させる。
分析の結果,rtdベースのplmでは,既知のコモンセンス知識が下流推論に不可欠であることが判明した。
関連論文リスト
- KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Causality-aware Concept Extraction based on Knowledge-guided Prompting [17.4086571624748]
概念は自然言語理解の恩恵を受けるが、既存の知識グラフ(KG)では完全とは程遠い。
近年,テキストベースの概念抽出において,事前学習言語モデル (PLM) が広く用いられている。
本稿では, PLM を用いた抽出器に知識誘導型プロンプトを装着することで, 概念バイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2023-05-03T03:36:20Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
論文 参考訳(メタデータ) (2022-05-08T08:37:36Z) - Can Prompt Probe Pretrained Language Models? Understanding the Invisible
Risks from a Causal View [37.625078897220305]
プリトレーニング言語モデル(PLM)の能力を評価するために,プロンプトに基づく探索が広く用いられている。
本稿では、因果的観点からの素早い探索を考察し、偏りのある結果と結論を誘導する3つの重要なバイアスを強調し、因果的介入による偏りの回避を提案する。
論文 参考訳(メタデータ) (2022-03-23T08:10:07Z) - Causal Inference Principles for Reasoning about Commonsense Causality [93.19149325083968]
コモンセンス因果推論(Commonsense causality reasoning)は、平均的な人によって妥当と見なされる自然言語記述における妥当な原因と影響を特定することを目的としている。
既存の作業は通常、深い言語モデルに全面的に依存しており、共起を混同する可能性がある。
古典的因果原理に触発され,我々はCCRの中心的問題を明確にし,観察研究と自然言語における人間の対象間の類似性を引き出す。
本稿では,時間信号をインシデント・インシデント・インシデント・インシデント・インシデントとして活用する新しいフレームワークであるROCKをReason O(A)bout Commonsense K(C)ausalityに提案する。
論文 参考訳(メタデータ) (2022-01-31T06:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。