論文の概要: Rethinking STS and NLI in Large Language Models
- arxiv url: http://arxiv.org/abs/2309.08969v2
- Date: Sun, 4 Feb 2024 09:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:04:39.161215
- Title: Rethinking STS and NLI in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるSTSとNLIの再考
- Authors: Yuxia Wang, Minghan Wang, Preslav Nakov
- Abstract要約: 我々は、意味的なテキストの類似性と自然言語の推論を再考しようと試みている。
臨床・バイオメディカル領域におけるSTSおよびNLIの性能について検討した。
次に, LLMの予測的信頼度と, 集団的人間の意見の収集能力を評価する。
- 参考スコア(独自算出の注目度): 38.74393637449224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen the rise of large language models (LLMs), where
practitioners use task-specific prompts; this was shown to be effective for a
variety of tasks. However, when applied to semantic textual similarity (STS)
and natural language inference (NLI), the effectiveness of LLMs turns out to be
limited by low-resource domain accuracy, model overconfidence, and difficulty
to capture the disagreements between human judgements. With this in mind, here
we try to rethink STS and NLI in the era of LLMs. We first evaluate the
performance of STS and NLI in the clinical/biomedical domain, and then we
assess LLMs' predictive confidence and their capability of capturing collective
human opinions. We find that these old problems are still to be properly
addressed in the era of LLMs.
- Abstract(参考訳): 近年、実践者がタスク固有のプロンプトを使用する大規模言語モデル(llm)が台頭しており、これは様々なタスクに有効であることが示されている。
しかし、セマンティックテキスト類似性(STS)と自然言語推論(NLI)に適用すると、LLMの有効性は低リソース領域の精度、モデルの過信、人間の判断の不一致を捉えるのが困難であることが判明した。
このことを念頭に置いて、私たちはLSMの時代においてSTSとNLIを再考しようとします。
臨床・生体領域におけるSTSとNLIの性能をまず評価し,LLMの予測的信頼度と集団的人間の意見の収集能力を評価する。
これらの古い問題は LLM の時代にも適切に対処されるべきである。
関連論文リスト
- Testing and Evaluation of Large Language Models: Correctness, Non-Toxicity, and Fairness [30.632260870411177]
大規模言語モデル(LLM)は、過去数年間、人々の仕事や日常生活に急速に浸透してきた。
この論文は、ソフトウェアテストと自然言語処理の両方の観点から、LSMの正当性、非毒性、公平性に焦点を当てている。
論文 参考訳(メタデータ) (2024-08-31T22:21:04Z) - D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models [5.439020425819001]
大規模言語モデル(LLM)は、様々なタスクにおける顕著なパフォーマンスのために、大きな注目を集め、広く使われている。
しかし、幻覚、事実的矛盾、数値的定量的推論の限界などの問題を含む、彼ら自身の課題は存在しない。
論文 参考訳(メタデータ) (2024-05-07T10:11:14Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。