論文の概要: Improving accuracy of GPT-3/4 results on biomedical data using a
retrieval-augmented language model
- arxiv url: http://arxiv.org/abs/2305.17116v2
- Date: Tue, 30 May 2023 15:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 11:33:54.384239
- Title: Improving accuracy of GPT-3/4 results on biomedical data using a
retrieval-augmented language model
- Title(参考訳): 検索言語モデルを用いた生体データにおけるGPT-3/4結果の精度向上
- Authors: David Soong, Sriram Sridhar, Han Si, Jan-Samuel Wagner, Ana Caroline
Costa S\'a, Christina Y Yu, Kubra Karagoz, Meijian Guan, Hisham Hamadeh,
Brandon W Higgs
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。
別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。
OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have made significant advancements in natural
language processing (NLP). Broad corpora capture diverse patterns but can
introduce irrelevance, while focused corpora enhance reliability by reducing
misleading information. Training LLMs on focused corpora poses computational
challenges. An alternative approach is to use a retrieval-augmentation (RetA)
method tested in a specific domain.
To evaluate LLM performance, OpenAI's GPT-3, GPT-4, Bing's Prometheus, and a
custom RetA model were compared using 19 questions on diffuse large B-cell
lymphoma (DLBCL) disease. Eight independent reviewers assessed responses based
on accuracy, relevance, and readability (rated 1-3).
The RetA model performed best in accuracy (12/19 3-point scores, total=47)
and relevance (13/19, 50), followed by GPT-4 (8/19, 43; 11/19, 49). GPT-4
received the highest readability scores (17/19, 55), followed by GPT-3 (15/19,
53) and the RetA model (11/19, 47). Prometheus underperformed in accuracy (34),
relevance (32), and readability (38).
Both GPT-3.5 and GPT-4 had more hallucinations in all 19 responses compared
to the RetA model and Prometheus. Hallucinations were mostly associated with
non-existent references or fabricated efficacy data.
These findings suggest that RetA models, supplemented with domain-specific
corpora, may outperform general-purpose LLMs in accuracy and relevance within
specific domains. However, this evaluation was limited to specific questions
and metrics and may not capture challenges in semantic search and other NLP
tasks. Further research will explore different LLM architectures, RetA
methodologies, and evaluation methods to assess strengths and limitations more
comprehensively.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理(NLP)に大きな進歩をもたらした。
broad corporaは多様なパターンをキャプチャするが、無関係なパターンを導入することができるが、焦点を合わせると誤解を招く情報を減らすことで信頼性が向上する。
LLMを集中コーパスでトレーニングすることは、計算上の課題を引き起こす。
別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。
OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルについて, びまん性大B細胞リンパ腫(DLBCL)19問を比較検討した。
8人の独立したレビュアーが,正確性,妥当性,可読性(評価1-3。
RetAモデルは、12/19の3点スコア、47点、関連13/19, 50点、GPT-4(8/19, 43; 11/19, 49点)の精度が最も高かった。
GPT-4は最高可読性スコア (17/19, 55) を受け、続いて GPT-3 (15/19, 53) と RetA (11/19, 47) が続いた。
prometheusは精度(34)、妥当性(32)、可読性(38)が低かった。
gpt-3.5とgpt-4はいずれもretaモデルとprometheusよりも19反応中より幻覚が多かった。
幻覚は、ほとんどが存在しない参照や効果データと関連していた。
これらの結果から,ドメイン固有コーパスを補足したRetAモデルは,特定のドメイン内での精度および関連性において汎用LLMよりも優れている可能性が示唆された。
しかし、この評価は特定の質問やメトリクスに限られており、セマンティック検索や他のNLPタスクの課題を捉えていない可能性がある。
さらなる研究は、強みと限界をより包括的に評価するための様々なllmアーキテクチャ、reta方法論、評価方法を検討する。
関連論文リスト
- Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文 参考訳(メタデータ) (2024-01-29T21:24:43Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - A comparative study of zero-shot inference with large language models
and supervised modeling in breast cancer pathology classification [1.4715634464004446]
大規模言語モデル(LLM)は、有望な伝達学習能力を実証している。
LLMは、大きな注釈付きデータセットをキュレートする必要性を減らし、臨床NLP研究の実行を高速化する可能性を実証した。
これは、観察臨床研究におけるNLPに基づく変数の利用と結果の増加をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-01-25T02:05:31Z) - Distilling Large Language Models for Matching Patients to Clinical
Trials [3.4068841624198942]
近年の大規模言語モデル(LLMs)の成功は、医療分野における彼らの採用の道を開いた。
本研究は,患者と臨床の整合性に対するプロプライエタリ (GPT-3.5, GPT-4) とオープンソース LLM (LLAMA 7B, 13B, 70B) の併用性について,最初の系統的検討を行った。
この制限された合成データセットを微調整したオープンソースのLLMは、プロプライエタリなデータセットと同等の性能を示した。
論文 参考訳(メタデータ) (2023-12-15T17:11:07Z) - CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - Split and Merge: Aligning Position Biases in Large Language Model based
Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。