論文の概要: A negation detection assessment of GPTs: analysis with the xNot360
dataset
- arxiv url: http://arxiv.org/abs/2306.16638v1
- Date: Thu, 29 Jun 2023 02:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 15:07:32.988406
- Title: A negation detection assessment of GPTs: analysis with the xNot360
dataset
- Title(参考訳): GPTの否定検出評価:xNot360データセットによる解析
- Authors: Ha Thanh Nguyen, Randy Goebel, Francesca Toni, Kostas Stathis, Ken
Satoh
- Abstract要約: 否定は自然言語の基本的側面であり、コミュニケーションと理解において重要な役割を果たす。
我々は,xNot360データセットに適用したゼロショット予測手法を用いて,自然言語における否定の識別に焦点を当てた。
GPT-4はGPT-3.5を上回り,GPT-3.5は顕著な性能低下を示した。
- 参考スコア(独自算出の注目度): 9.165119034384027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Negation is a fundamental aspect of natural language, playing a critical role
in communication and comprehension. Our study assesses the negation detection
performance of Generative Pre-trained Transformer (GPT) models, specifically
GPT-2, GPT-3, GPT-3.5, and GPT-4. We focus on the identification of negation in
natural language using a zero-shot prediction approach applied to our custom
xNot360 dataset. Our approach examines sentence pairs labeled to indicate
whether the second sentence negates the first. Our findings expose a
considerable performance disparity among the GPT models, with GPT-4 surpassing
its counterparts and GPT-3.5 displaying a marked performance reduction. The
overall proficiency of the GPT models in negation detection remains relatively
modest, indicating that this task pushes the boundaries of their natural
language understanding capabilities. We not only highlight the constraints of
GPT models in handling negation but also emphasize the importance of logical
reliability in high-stakes domains such as healthcare, science, and law.
- Abstract(参考訳): 否定は自然言語の基本的側面であり、コミュニケーションと理解において重要な役割を果たす。
本研究は, GPT-2, GPT-3, GPT-3.5, GPT-4の否定検出性能を評価する。
独自のxnot360データセットに適用したゼロショット予測手法を用いて,自然言語における否定の同定に焦点を当てた。
提案手法は,第2文が第1文を否定するか否かを示すためにラベル付けされた文対を調べる。
GPT-4はGPT-3.5を上回り,GPT-3.5は顕著な性能低下を示した。
否定検出におけるgptモデルの全体的な習熟度は比較的低く、このタスクが自然言語理解能力の境界を押し上げることを示している。
我々は、否定処理におけるGPTモデルの制約を強調するだけでなく、医療、科学、法といった高度な領域における論理的信頼性の重要性も強調する。
関連論文リスト
- AGB-DE: A Corpus for the Automated Legal Assessment of Clauses in German Consumer Contracts [4.427516854041417]
AGB-DE(AGB-DE)は、ドイツの消費者契約の3,764節のコーパスであり、法律の専門家によって注釈付けされ法的に評価されている。
我々は,SVMベースラインの性能を3つの細調整されたオープン言語モデルと比較し,GPT-3.5の性能を比較した。
誤りの分析は、主な課題の1つは、複雑な節の正しい解釈であることを示している。
論文 参考訳(メタデータ) (2024-06-10T21:27:13Z) - An Empirical Analysis on Large Language Models in Debate Evaluation [10.677407097411768]
GPT-3.5 や GPT-4 のような先進大言語モデル (LLM) の機能と固有バイアスを議論評価の文脈で検討する。
GPT-3.5 と GPT-4 の両者に一貫した偏りがみられた。
また, GPT-3.5 および GPT-4 の語彙バイアスも明らかにした。
論文 参考訳(メタデータ) (2024-05-28T18:34:53Z) - An Analysis of Language Frequency and Error Correction for Esperanto [0.0]
Eo-GPデータセットを用いて包括的周波数解析を行う。
次に,実例から得られたEo-GECデータセットを紹介する。
GPT-3.5 と GPT-4 を用いて,GPT-4 は自動評価と人的評価の両方において GPT-3.5 よりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T04:10:25Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot
Setting and Performance Boosting Through Prompts [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では, GPT-3.5, GPT-4, BARDモデルの性能について, 様々な推論タスクについて, 徹底的な技術的評価を行うことにより検討する。
論文 参考訳(メタデータ) (2023-05-21T14:45:17Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Improving negation detection with negation-focused pre-training [58.32362243122714]
否定は共通の言語的特徴であり、多くの言語理解タスクにおいて不可欠である。
最近の研究で、最先端のNLPモデルは否定を含むサンプルで性能が低いことが示されている。
本稿では,データ拡張と否定マスキングを対象とする,否定に焦点をあてた新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2022-05-09T02:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。