論文の概要: IITK at SemEval-2024 Task 2: Exploring the Capabilities of LLMs for Safe Biomedical Natural Language Inference for Clinical Trials
- arxiv url: http://arxiv.org/abs/2404.04510v1
- Date: Sat, 6 Apr 2024 05:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:58:47.857658
- Title: IITK at SemEval-2024 Task 2: Exploring the Capabilities of LLMs for Safe Biomedical Natural Language Inference for Clinical Trials
- Title(参考訳): IITK at SemEval-2024 Task 2: Exploring the capabilities of LLMs for Safe Biomedical Natural Language Inference for Clinical Trials
- Authors: Shreyasi Mandal, Ashutosh Modi,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて最先端の性能を示す。
本研究は,乳がん臨床治験報告(CTR)における自然言語推論(NLI)実施時のLSMsの堅牢性,一貫性,忠実な推論について検討する。
論理的問題解決におけるLLMの推論能力とその適応性について検討する。
- 参考スコア(独自算出の注目度): 4.679320772294786
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language models (LLMs) have demonstrated state-of-the-art performance in various natural language processing (NLP) tasks across multiple domains, yet they are prone to shortcut learning and factual inconsistencies. This research investigates LLMs' robustness, consistency, and faithful reasoning when performing Natural Language Inference (NLI) on breast cancer Clinical Trial Reports (CTRs) in the context of SemEval 2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trials. We examine the reasoning capabilities of LLMs and their adeptness at logical problem-solving. A comparative analysis is conducted on pre-trained language models (PLMs), GPT-3.5, and Gemini Pro under zero-shot settings using Retrieval-Augmented Generation (RAG) framework, integrating various reasoning chains. The evaluation yields an F1 score of 0.69, consistency of 0.71, and a faithfulness score of 0.90 on the test dataset.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数のドメインにわたる様々な自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを示すが、学習と現実の矛盾を短くする傾向にある。
本研究は,乳がんにおける自然言語推論(NLI)実施時のLSMの堅牢性,一貫性,忠実な推論について,SemEval 2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trialsを用いて検討した。
論理的問題解決におけるLLMの推論能力とその適応性について検討する。
Retrieval-Augmented Generation (RAG) フレームワークを用いて, ゼロショット設定下での事前学習言語モデル(PLM), GPT-3.5, Gemini Proの比較分析を行った。
評価はF1スコアが0.69、一貫性が0.71、忠実度が0.90となる。
関連論文リスト
- D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models [5.439020425819001]
大規模言語モデル(LLM)は、様々なタスクにおける顕著なパフォーマンスのために、大きな注目を集め、広く使われている。
しかし、幻覚、事実的矛盾、数値的定量的推論の限界などの問題を含む、彼ら自身の課題は存在しない。
論文 参考訳(メタデータ) (2024-05-07T10:11:14Z) - Beyond Self-Consistency: Ensemble Reasoning Boosts Consistency and Accuracy of LLMs in Cancer Staging [0.33554367023486936]
がんのステージング状態は臨床報告で確認できるが、抽出するには自然言語処理が必要である。
臨床指向の大規模言語モデルの進歩により、アルゴリズムの訓練に多大な努力を払わずに、そのような状態を抽出することが期待されている。
本研究では,モデル生成の一貫性向上を目的としたアンサンブル推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T19:34:35Z) - SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trials [13.59675117792588]
SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for ClinicalTrialsについて紹介する。
我々の貢献には、改良されたNLI4CT-Pデータセット(Natural Language Inference for Clinical Trials - Perturbed)が含まれる。
このタスクに登録された参加者は合計106人であり、1200以上の個人申請と25のシステム概要書に貢献している。
このイニシアチブは、医療におけるNLIモデルの堅牢性と適用性を向上し、臨床意思決定におけるより安全で信頼性の高いAIアシストを保証することを目的としている。
論文 参考訳(メタデータ) (2024-04-07T13:58:41Z) - SEME at SemEval-2024 Task 2: Comparing Masked and Generative Language Models on Natural Language Inference for Clinical Trials [0.9012198585960441]
本稿では,SemEval-2024: Safe Biomedical Natural Language Inference for Clinical Trialsについて述べる。
NLI4CT(Multi-evidence Natural Language Inference for Clinical Trial Data)は、自然言語推論(NLI)モデルの整合性と忠実性の評価に焦点をあてたテキスト・エンターメント・タスクである。
論文 参考訳(メタデータ) (2024-04-05T09:18:50Z) - Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。
LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。
我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-12-22T13:14:38Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - Using Natural Language Explanations to Improve Robustness of In-context Learning [35.18010811754959]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる
自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
論文 参考訳(メタデータ) (2023-11-13T18:49:13Z) - Evaluating Large Language Models for Radiology Natural Language
Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。
本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2023-07-25T17:57:18Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。