論文の概要: ChatGPT and Simple Linguistic Inferences: Blind Spots and Blinds
- arxiv url: http://arxiv.org/abs/2305.14785v1
- Date: Wed, 24 May 2023 06:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:01:33.573815
- Title: ChatGPT and Simple Linguistic Inferences: Blind Spots and Blinds
- Title(参考訳): ChatGPTと単純な言語推論:盲点と盲点
- Authors: Victoria Basmov, Yoav Goldberg, Reut Tsarfaty
- Abstract要約: 本稿では,人間にとって容易な単純な推論タスクに焦点をあてる。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
以上の結果から,モデルがこのような推論に苦慮し,中程度の精度で精度が低いことが示唆された。
- 参考スコア(独自算出の注目度): 51.220650412095665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper sheds light on the limitations of ChatGPT's understanding
capabilities, focusing on simple inference tasks that are typically easy for
humans but appear to be challenging for the model. Specifically, we target (i)
grammatically-specified entailments, (ii) premises with evidential adverbs of
uncertainty, and (iii) monotonicity entailments. We present expert-designed
evaluation sets for these inference types and conduct experiments in a
zero-shot setup. Our results show that the model struggles with these types of
inferences, exhibiting moderate to low accuracy. Moreover, while ChatGPT
demonstrates knowledge of the underlying linguistic concepts when prompted
directly, it often fails to incorporate this knowledge to make correct
inferences. Even more strikingly, further experiments show that embedding the
premise under presupposition triggers or non-factive verbs causes the model to
predict entailment more frequently {regardless} of the correct semantic label.
Overall these results suggest that, despite GPT's celebrated language
understanding capacity, ChatGPT has blindspots with respect to certain types of
entailment, and that certain entailment-cancelling features act as ``blinds''
overshadowing the semantics of the embedded premise. Our analyses emphasize the
need for further research into the linguistic comprehension and reasoning
capabilities of LLMs, in order to improve their reliability, and establish
their trustworthiness for real-world applications.
- Abstract(参考訳): 本稿では、ChatGPTの理解能力の限界に光を当て、人間にとって簡単な推論タスクに焦点をあてる。
特にターゲットは
(i)文法的に特定された内容
(ii)不確かさを立証する施設、及び
(三)単調性に関するもの
我々は,これらの推論型に対して専門家が設計した評価セットを提示し,ゼロショットで実験を行う。
以上の結果から,モデルがこのような推論に苦慮していることが示唆された。
さらに、ChatGPTは直接的に誘導される言語概念の知識を示すが、正しい推論を行うためにこの知識を組み込むことがしばしば失敗する。
さらに驚くべきことに、さらなる実験により、前提条件を前置詞または非正反対動詞に埋め込むことで、モデルが正しい意味ラベルのより頻繁な『無関係』を予測できることが示されている。
これらの結果は, GPT の言語理解能力が有望であるにもかかわらず,ChatGPT は特定のエンタテインメントに対して盲点を有しており,特定のエンタテインメント・キャンセリング機能は,組込み前提のセマンティクスを超越した 'blinds'' として機能することを示唆している。
本分析では,LLMの言語理解と推論能力に関するさらなる研究の必要性を強調し,信頼性の向上と実世界のアプリケーションに対する信頼性の確立を図る。
関連論文リスト
- Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Traffic Light or Light Traffic? Investigating Phrasal Semantics in Large Language Models [41.233879429714925]
本研究は,フレーズ意味論を理解するためのAPIベースの大規模言語モデルの能力について批判的に考察する。
自然言語命令で指示されたフレーズ意味推論タスクの実行におけるLLMの性能を評価する。
句意味論の理解において, LLM が直面する制約を解釈するために, 詳細な誤り解析を行う。
論文 参考訳(メタデータ) (2024-10-03T08:44:17Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。