論文の概要: SEME at SemEval-2024 Task 2: Comparing Masked and Generative Language Models on Natural Language Inference for Clinical Trials
- arxiv url: http://arxiv.org/abs/2404.03977v1
- Date: Fri, 5 Apr 2024 09:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 16:34:30.563770
- Title: SEME at SemEval-2024 Task 2: Comparing Masked and Generative Language Models on Natural Language Inference for Clinical Trials
- Title(参考訳): SEME at SemEval-2024 Task 2: Comparisoning Masked and Generative Language Models on Natural Language Inference for Clinical Trials
- Authors: Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi,
- Abstract要約: 本稿では,SemEval-2024: Safe Biomedical Natural Language Inference for Clinical Trialsについて述べる。
NLI4CT(Multi-evidence Natural Language Inference for Clinical Trial Data)は、自然言語推論(NLI)モデルの整合性と忠実性の評価に焦点をあてたテキスト・エンターメント・タスクである。
- 参考スコア(独自算出の注目度): 0.9012198585960441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our submission to Task 2 of SemEval-2024: Safe Biomedical Natural Language Inference for Clinical Trials. The Multi-evidence Natural Language Inference for Clinical Trial Data (NLI4CT) consists of a Textual Entailment (TE) task focused on the evaluation of the consistency and faithfulness of Natural Language Inference (NLI) models applied to Clinical Trial Reports (CTR). We test 2 distinct approaches, one based on finetuning and ensembling Masked Language Models and the other based on prompting Large Language Models using templates, in particular, using Chain-Of-Thought and Contrastive Chain-Of-Thought. Prompting Flan-T5-large in a 2-shot setting leads to our best system that achieves 0.57 F1 score, 0.64 Faithfulness, and 0.56 Consistency.
- Abstract(参考訳): 本稿では,SemEval-2024: Safe Biomedical Natural Language Inference for Clinical Trialsのタスク2について述べる。
The Multi-evidence Natural Language Inference for Clinical Trial Data (NLI4CT) are consist of a Textual Entailment (TE) task on the evaluation of the consistency and faithfulness of Natural Language Inference (NLI) model applied to Clinical Trial Reports (CTR)。
特にChain-Of-Thought と Contrastive Chain-Of-Thought を用いて,テンプレートを用いた大規模言語モデルの導入を促す。
2ショット設定でFlan-T5を大きくすることで、0.57のF1スコア、0.64のFithfulness、0.56のConsistencyを達成できます。
関連論文リスト
- Lisbon Computational Linguists at SemEval-2024 Task 2: Using A Mistral 7B Model and Data Augmentation [6.655410984703003]
我々はNLI4CTタスクのプロンプトを開発し、トレーニングデータセットの強化バージョンを使用してモデルの量子化バージョンを微調整する。
実験結果から,マクロF1スコアを用いて,本手法により顕著な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-08-06T11:59:09Z) - Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - DKE-Research at SemEval-2024 Task 2: Incorporating Data Augmentation with Generative Models and Biomedical Knowledge to Enhance Inference Robustness [27.14794371879541]
本稿では,生物医学的自然言語推論のためのモデルロバスト性向上のための新しいデータ拡張手法を提案する。
意味摂動とドメイン固有の語彙置換によって合成例を生成することにより,多様性の向上とショートカット学習の削減を図る。
マルチタスク学習とDeBERTaアーキテクチャを組み合わせることで,NLI4CT 2024ベンチマークで大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-14T10:02:47Z) - TLDR at SemEval-2024 Task 2: T5-generated clinical-Language summaries for DeBERTa Report Analysis [0.7499722271664147]
TLDR (T5- generated clinical-Language summaries for DeBERTa Report Analysis) はT5-model generated premises summariesを組み込んだものである。
このアプローチは、小さなコンテキストウィンドウと長い前提によって引き起こされる課題を克服し、マクロF1スコアを大幅に改善する。
論文 参考訳(メタデータ) (2024-04-14T04:14:30Z) - SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trials [13.59675117792588]
SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for ClinicalTrialsについて紹介する。
我々の貢献には、改良されたNLI4CT-Pデータセット(Natural Language Inference for Clinical Trials - Perturbed)が含まれる。
このタスクに登録された参加者は合計106人であり、1200以上の個人申請と25のシステム概要書に貢献している。
このイニシアチブは、医療におけるNLIモデルの堅牢性と適用性を向上し、臨床意思決定におけるより安全で信頼性の高いAIアシストを保証することを目的としている。
論文 参考訳(メタデータ) (2024-04-07T13:58:41Z) - IITK at SemEval-2024 Task 2: Exploring the Capabilities of LLMs for Safe Biomedical Natural Language Inference for Clinical Trials [4.679320772294786]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて最先端の性能を示す。
本研究は,乳がん臨床治験報告(CTR)における自然言語推論(NLI)実施時のLSMsの堅牢性,一貫性,忠実な推論について検討する。
論理的問題解決におけるLLMの推論能力とその適応性について検討する。
論文 参考訳(メタデータ) (2024-04-06T05:44:53Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - UniMax: Fairer and more Effective Language Sampling for Large-Scale
Multilingual Pretraining [92.3702056505905]
我々は,尾語への過剰適合を軽減しつつ,より均一なヘッド言語カバレッジを提供する新しいサンプリング手法UniMaxを提案する。
We found that UniMax are outperforming standard temperature-based sample, and the benefit persistent as scale increased。
論文 参考訳(メタデータ) (2023-04-18T17:45:50Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - NEMO: Frequentist Inference Approach to Constrained Linguistic Typology
Feature Prediction in SIGTYP 2020 Shared Task [83.43738174234053]
タイプ的特徴間の相関関係を表現するために頻繁な推論を用い、この表現を用いて、個々の特徴を予測する単純なマルチクラス推定器を訓練する。
テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。
論文 参考訳(メタデータ) (2020-10-12T19:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。