論文の概要: ChatGPT and Simple Linguistic Inferences: Blind Spots and Blinds
- arxiv url: http://arxiv.org/abs/2305.14785v1
- Date: Wed, 24 May 2023 06:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:01:33.573815
- Title: ChatGPT and Simple Linguistic Inferences: Blind Spots and Blinds
- Title(参考訳): ChatGPTと単純な言語推論:盲点と盲点
- Authors: Victoria Basmov, Yoav Goldberg, Reut Tsarfaty
- Abstract要約: 本稿では,人間にとって容易な単純な推論タスクに焦点をあてる。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
以上の結果から,モデルがこのような推論に苦慮し,中程度の精度で精度が低いことが示唆された。
- 参考スコア(独自算出の注目度): 51.220650412095665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper sheds light on the limitations of ChatGPT's understanding
capabilities, focusing on simple inference tasks that are typically easy for
humans but appear to be challenging for the model. Specifically, we target (i)
grammatically-specified entailments, (ii) premises with evidential adverbs of
uncertainty, and (iii) monotonicity entailments. We present expert-designed
evaluation sets for these inference types and conduct experiments in a
zero-shot setup. Our results show that the model struggles with these types of
inferences, exhibiting moderate to low accuracy. Moreover, while ChatGPT
demonstrates knowledge of the underlying linguistic concepts when prompted
directly, it often fails to incorporate this knowledge to make correct
inferences. Even more strikingly, further experiments show that embedding the
premise under presupposition triggers or non-factive verbs causes the model to
predict entailment more frequently {regardless} of the correct semantic label.
Overall these results suggest that, despite GPT's celebrated language
understanding capacity, ChatGPT has blindspots with respect to certain types of
entailment, and that certain entailment-cancelling features act as ``blinds''
overshadowing the semantics of the embedded premise. Our analyses emphasize the
need for further research into the linguistic comprehension and reasoning
capabilities of LLMs, in order to improve their reliability, and establish
their trustworthiness for real-world applications.
- Abstract(参考訳): 本稿では、ChatGPTの理解能力の限界に光を当て、人間にとって簡単な推論タスクに焦点をあてる。
特にターゲットは
(i)文法的に特定された内容
(ii)不確かさを立証する施設、及び
(三)単調性に関するもの
我々は,これらの推論型に対して専門家が設計した評価セットを提示し,ゼロショットで実験を行う。
以上の結果から,モデルがこのような推論に苦慮していることが示唆された。
さらに、ChatGPTは直接的に誘導される言語概念の知識を示すが、正しい推論を行うためにこの知識を組み込むことがしばしば失敗する。
さらに驚くべきことに、さらなる実験により、前提条件を前置詞または非正反対動詞に埋め込むことで、モデルが正しい意味ラベルのより頻繁な『無関係』を予測できることが示されている。
これらの結果は, GPT の言語理解能力が有望であるにもかかわらず,ChatGPT は特定のエンタテインメントに対して盲点を有しており,特定のエンタテインメント・キャンセリング機能は,組込み前提のセマンティクスを超越した 'blinds'' として機能することを示唆している。
本分析では,LLMの言語理解と推論能力に関するさらなる研究の必要性を強調し,信頼性の向上と実世界のアプリケーションに対する信頼性の確立を図る。
関連論文リスト
- Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Large Language Models Meet Open-World Intent Discovery and Recognition:
An Evaluation of ChatGPT [37.27411474856601]
Out-of-domain(OOD)インテントディスカバリと一般化インテントディスカバリ(GID)は、オープンワールドインテントセットにクローズドインテントを拡張することを目的としている。
従来の手法は微調整の識別モデルによってそれらに対処する。
ChatGPTはゼロショット設定で一貫したアドバンテージを示すが、細調整されたモデルに比べて依然として不利である。
論文 参考訳(メタデータ) (2023-10-16T08:34:44Z) - An Overview Of Temporal Commonsense Reasoning and Acquisition [20.108317515225504]
時間的コモンセンス推論(英: Temporal Commonsense reasoning)とは、フレーズ、行動、出来事の典型的な時間的文脈を理解する能力である。
大規模言語モデルの性能に関する最近の研究は、しばしば推論においてショートカットを行い、単純な言語トラップに陥ることが示唆されている。
論文 参考訳(メタデータ) (2023-07-28T01:30:15Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
論文 参考訳(メタデータ) (2022-05-08T08:37:36Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。