Fugu-MT 論文翻訳(概要): D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models

論文の概要: D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models

arxiv url: http://arxiv.org/abs/2405.04170v1
Date: Tue, 7 May 2024 10:11:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 14:29:58.656672
Title: D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models
Title（参考訳）: SemEval-2024タスク2におけるD-NLP:大規模言語モデルの臨床推測能力の評価
Authors: Duygu Altinok,
Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにおける顕著なパフォーマンスのために、大きな注目を集め、広く使われている。しかし、幻覚、事実的矛盾、数値的定量的推論の限界などの問題を含む、彼ら自身の課題は存在しない。
参考スコア（独自算出の注目度）: 5.439020425819001
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have garnered significant attention and widespread usage due to their impressive performance in various tasks. However, they are not without their own set of challenges, including issues such as hallucinations, factual inconsistencies, and limitations in numerical-quantitative reasoning. Evaluating LLMs in miscellaneous reasoning tasks remains an active area of research. Prior to the breakthrough of LLMs, Transformers had already proven successful in the medical domain, effectively employed for various natural language understanding (NLU) tasks. Following this trend, LLMs have also been trained and utilized in the medical domain, raising concerns regarding factual accuracy, adherence to safety protocols, and inherent limitations. In this paper, we focus on evaluating the natural language inference capabilities of popular open-source and closed-source LLMs using clinical trial reports as the dataset. We present the performance results of each LLM and further analyze their performance on a development set, particularly focusing on challenging instances that involve medical abbreviations and require numerical-quantitative reasoning. Gemini, our leading LLM, achieved a test set F1-score of 0.748, securing the ninth position on the task scoreboard. Our work is the first of its kind, offering a thorough examination of the inference capabilities of LLMs within the medical domain.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なタスクにおける顕著なパフォーマンスのために、大きな注目を集め、広く使われている。しかし、幻覚、事実的矛盾、数値的定量的推論の限界などの問題を含む、彼ら自身の課題は存在しない。雑多な推論タスクにおけるLCMの評価は、現在も研究の活発な領域である。 LLMの突破前、トランスフォーマーは医学分野ですでに成功しており、様々な自然言語理解(NLU)タスクに効果的に採用された。この傾向に続いて、LSMは医療分野でも訓練され、活用され、事実の正確性、安全プロトコルの遵守、および固有の制限に関する懸念が高まっている。本稿では,臨床試験報告をデータセットとして用いた,オープンソースおよびオープンソースLLMの自然言語推論能力の評価に焦点をあてる。本稿では,それぞれのLCMの性能評価結果について述べるとともに,特に医学的省略を伴い,数値的定量的推論を必要とする困難な事例に着目して,開発環境での性能分析を行う。我々のLLMであるジェミニは0.748のF1スコアを達成し、タスクスコアボードの9位を確保した。我々の研究は、医療分野におけるLSMの推論能力を徹底的に検証した初めてのものである。

関連論文リスト

Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Benchmarking LLMs and SLMs for patient reported outcomes [0.0]
本研究は,放射線治療の文脈における患者報告Q&Aフォームの要約のためのLSMに対して,いくつかのSLMをベンチマークする。各種測定値を用いて精度と信頼性を評価する。この調査結果は、高度な医療タスクのためのSLMの約束と制限の両方を強調し、より効率的でプライバシ保護のAI駆動型ヘルスケアソリューションを促進する。
論文参考訳（メタデータ） (2024-12-20T19:01:25Z)
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文参考訳（メタデータ） (2024-11-29T12:21:15Z)
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文参考訳（メタデータ） (2024-10-16T07:49:13Z)
IITK at SemEval-2024 Task 2: Exploring the Capabilities of LLMs for Safe Biomedical Natural Language Inference for Clinical Trials [4.679320772294786]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて最先端の性能を示す。本研究は,乳がん臨床治験報告(CTR)における自然言語推論(NLI)実施時のLSMsの堅牢性,一貫性,忠実な推論について検討する。論理的問題解決におけるLLMの推論能力とその適応性について検討する。
論文参考訳（メタデータ） (2024-04-06T05:44:53Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Rethinking STS and NLI in Large Language Models [38.74393637449224]
我々は、意味的なテキストの類似性と自然言語の推論を再考しようと試みている。臨床・バイオメディカル領域におけるSTSおよびNLIの性能について検討した。次に, LLMの予測的信頼度と, 集団的人間の意見の収集能力を評価する。
論文参考訳（メタデータ） (2023-09-16T11:58:39Z)
Aligning Large Language Models for Clinical Tasks [0.0]
大規模言語モデル(LLM)は目覚ましい適応性を示しており、明示的に訓練されていないタスクに精通する能力を示している。我々は「Expand-guess-refine」として知られる医療質問応答のためのアライメント戦略を提案する。この手法の予備的な分析により、USMLEデータセットから得られた質問のサブセットで70.63%のスコアが得られた。
論文参考訳（メタデータ） (2023-09-06T10:20:06Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文参考訳（メタデータ） (2023-04-09T16:31:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。