論文の概要: Rethinking STS and NLI in Large Language Models
- arxiv url: http://arxiv.org/abs/2309.08969v1
- Date: Sat, 16 Sep 2023 11:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:02:32.314995
- Title: Rethinking STS and NLI in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるSTSとNLIの再考
- Authors: Yuxia Wang, Minghan Wang, Preslav Nakov
- Abstract要約: 大規模言語モデル(LLM)の時代にSTSとNLIを再考することを目指している。
臨床・バイオメディカルSTSとNLIの精度を5つのデータセットで評価した。
次に, LLMの予測信頼度と, 集団的人間の意見の収集能力を評価する。
- 参考スコア(独自算出の注目度): 38.74393637449224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we aim to rethink STS and NLI in the era of large language
models (LLMs). We first evaluate the accuracy of clinical/biomedical STS and
NLI over five datasets, and then we assess LLM predictive confidence and their
capability of capturing collective human opinions. We find that LLMs may be
able to provide personalised descriptions for a specific topic, or to generate
semantically similar content in different tones, but that this is hard for
current LLMs to make personalised judgements or decisions. We further find that
zero-shot ChatGPT achieves competitive accuracy over clinical and biomedical
STS/NLI, constraining to the fine-tuned BERT-base. However, there is a large
variation in sampling, ensembled results perform the best.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) の時代にSTSとNLIを再考することを目的とする。
まず,5つのデータセットを用いて臨床・バイオメディカルSTSとNLIの精度を評価し,LLMの予測信頼度と集団的人間の意見の収集能力を評価する。
LLMは特定のトピックについてパーソナライズされた記述を提供したり、異なるトーンで意味的に類似したコンテンツを生成することができるが、現在のLCMではパーソナライズされた判断や決定を行うのは難しい。
さらに,ゼロショット ChatGPT は臨床・生医学的 STS/NLI よりも精度が高く,細調整された BERT-base に制約があることがわかった。
しかし、サンプリングのバリエーションは多様で、アンサンブルされた結果が最適である。
関連論文リスト
- Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness [30.632260870411177]
大規模言語モデル(LLM)は、過去数年間、人々の仕事や日常生活に急速に浸透してきた。
この論文は、ソフトウェアテストと自然言語処理の両方の観点から、LSMの正当性、非毒性、公平性に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-31T22:21:04Z) - D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models [5.439020425819001]
大規模言語モデル(LLM)は、様々なタスクにおける顕著なパフォーマンスのために、大きな注目を集め、広く使われている。
しかし、幻覚、事実的矛盾、数値的定量的推論の限界などの問題を含む、彼ら自身の課題は存在しない。
論文 参考訳(メタデータ) (2024-05-07T10:11:14Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。