論文の概要: SemEval-2023 Task 7: Multi-Evidence Natural Language Inference for
Clinical Trial Data
- arxiv url: http://arxiv.org/abs/2305.02993v1
- Date: Thu, 4 May 2023 16:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:36:20.931850
- Title: SemEval-2023 Task 7: Multi-Evidence Natural Language Inference for
Clinical Trial Data
- Title(参考訳): semeval-2023タスク7: 臨床試験データのための多次元自然言語推論
- Authors: Ma\"el Jullien, Marco Valentino, Hannah Frost, Paul O'Regan, Donal
Landers, Andr\'e Freitas
- Abstract要約: 本稿では,SemEval 2023 Task 7-Multi-Evidence Natural Language Inference for Clinical Trial Dataの結果について述べる。
提案する課題には, マルチホップバイオメディカルおよび数値推論が必要である。
我々は,エビデンス選択タスクにおいて,エンテーメントタスクよりもはるかに優れたパフォーマンスを観察する。
- 参考スコア(独自算出の注目度): 1.6932802756478729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the results of SemEval 2023 task 7 -- Multi-Evidence
Natural Language Inference for Clinical Trial Data (NLI4CT) -- consisting of 2
tasks, a Natural Language Inference (NLI) task, and an evidence selection task
on clinical trial data. The proposed challenges require multi-hop biomedical
and numerical reasoning, which are of significant importance to the development
of systems capable of large-scale interpretation and retrieval of medical
evidence, to provide personalized evidence-based care.
Task 1, the entailment task, received 643 submissions from 40 participants,
and Task 2, the evidence selection task, received 364 submissions from 23
participants. The tasks are challenging, with the majority of submitted systems
failing to significantly outperform the majority class baseline on the
entailment task, and we observe significantly better performance on the
evidence selection task than on the entailment task. Increasing the number of
model parameters leads to a direct increase in performance, far more
significant than the effect of biomedical pre-training. Future works could
explore the limitations of large models for generalization and numerical
inference, and investigate methods to augment clinical datasets to allow for
more rigorous testing and to facilitate fine-tuning.
We envisage that the dataset, models, and results of this task will be useful
to the biomedical NLI and evidence retrieval communities. The dataset,
competition leaderboard, and website are publicly available.
- Abstract(参考訳): 本稿では,SemEval 2023 task 7 -- Multi-Evidence Natural Language Inference for Clinical Trial Data (NLI4CT) -- の2つのタスク,自然言語推論(NLI)タスク,臨床治験データに対するエビデンス選択タスクについて述べる。
提案する課題は、医療証拠の大規模解釈と検索が可能なシステムの開発において重要な役割を担っているマルチホップな生体医学的・数値的推論を必要とする。
第1タスクは40人の参加者から643人の応募を受け、第2タスクは証拠選択タスクは23人の参加者から364人の応募を受けた。
課題は課題であり,提出されたシステムの大部分は,提案タスクにおける多数クラスベースラインを著しく上回っており,提案タスクよりもエビデンス選択タスクにおけるパフォーマンスが著しく向上している。
モデルパラメータ数の増加は、バイオメディカル事前トレーニングの効果よりもはるかに重要な、パフォーマンスの直接的な向上につながる。
将来の研究は、一般化と数値推論のための大きなモデルの限界を探求し、より厳密なテストを可能にし、微調整を容易にするために臨床データセットを拡張する方法を探るかもしれない。
我々は, この課題のデータセット, モデル, 結果が, バイオメディカルNLIとエビデンス検索コミュニティに有用であることを示唆する。
データセット、競合リーダーボード、ウェブサイトが公開されている。
関連論文リスト
- Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - DKE-Research at SemEval-2024 Task 2: Incorporating Data Augmentation with Generative Models and Biomedical Knowledge to Enhance Inference Robustness [27.14794371879541]
本稿では,生物医学的自然言語推論のためのモデルロバスト性向上のための新しいデータ拡張手法を提案する。
意味摂動とドメイン固有の語彙置換によって合成例を生成することにより,多様性の向上とショートカット学習の削減を図る。
マルチタスク学習とDeBERTaアーキテクチャを組み合わせることで,NLI4CT 2024ベンチマークで大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-14T10:02:47Z) - SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trials [13.59675117792588]
SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for ClinicalTrialsについて紹介する。
我々の貢献には、改良されたNLI4CT-Pデータセット(Natural Language Inference for Clinical Trials - Perturbed)が含まれる。
このタスクに登録された参加者は合計106人であり、1200以上の個人申請と25のシステム概要書に貢献している。
このイニシアチブは、医療におけるNLIモデルの堅牢性と適用性を向上し、臨床意思決定におけるより安全で信頼性の高いAIアシストを保証することを目的としている。
論文 参考訳(メタデータ) (2024-04-07T13:58:41Z) - SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes [48.83290963506378]
本稿では,幻覚検出に焦点をあてた共有タスクであるSHROOMの結果について述べる。
このアプローチをどのように取り組んだかについて、いくつかの重要なトレンドを観察します。
チームの大多数が提案したベースラインシステムより優れていますが、トップスコアシステムのパフォーマンスは依然として、より困難なアイテムのランダムなハンドリングと一致しています。
論文 参考訳(メタデータ) (2024-03-12T15:06:22Z) - Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models [73.79091519226026]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。
医療診断、トラブルシューティング、および20の質問ゲームに関する実験において、UoTは、タスク完了の成功率において平均38.1%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-02-05T18:28:44Z) - Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse
Biomedical Tasks [19.091278630792615]
既存のバイオメディカル大規模言語モデル(LLMs)は、単言語でのバイオメディカル質問応答や会話タスクのパフォーマンス向上に重点を置いている。
多様なバイオメディカルタスクのためのバイリンガル微調整LDMであるTaiyiについて紹介する。
論文 参考訳(メタデータ) (2023-11-20T08:51:30Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Sebis at SemEval-2023 Task 7: A Joint System for Natural Language
Inference and Evidence Retrieval from Clinical Trial Reports [0.799536002595393]
SemEval-2023 Task 7は、エビデンス検索と臨床試験データからの自然言語推論という2つのタスクのためのNLPシステムを開発することを目的としていた。
最終応募者40名中3位にランクインした。
論文 参考訳(メタデータ) (2023-04-25T22:22:42Z) - Specialty-Oriented Generalist Medical AI for Chest CT Screening [14.31187762890342]
本稿では,肺がん検診および関連する課題に応用したM3FM(Maltimodal-multitask foundation model)を提案する。
M3FMは、最先端のシングルモーダルタスク特化モデルより一貫して優れている。
専門的な汎用的な医療AIモデルとして、M3FMは、他の医療分野における同様のブレークスルーの道を開く。
論文 参考訳(メタデータ) (2023-04-03T20:19:56Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。