論文の概要: A Course Shared Task on Evaluating LLM Output for Clinical Questions
- arxiv url: http://arxiv.org/abs/2408.00122v1
- Date: Wed, 31 Jul 2024 19:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 22:25:51.425167
- Title: A Course Shared Task on Evaluating LLM Output for Clinical Questions
- Title(参考訳): 臨床におけるLCMのアウトプット評価に関する共通課題
- Authors: Yufang Hou, Thy Thy Tran, Doan Nam Long Vu, Yiwen Cao, Kai Li, Lukas Rohde, Iryna Gurevych,
- Abstract要約: 本稿では,健康関連臨床問題に対する有害な回答を生成するために,LLM(Large Language Models)の出力を評価することに焦点を当てた。
課題設計について考察し,学生からのフィードバックを報告する。
- 参考スコア(独自算出の注目度): 49.78601596538669
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a shared task that we organized at the Foundations of Language Technology (FoLT) course in 2023/2024 at the Technical University of Darmstadt, which focuses on evaluating the output of Large Language Models (LLMs) in generating harmful answers to health-related clinical questions. We describe the task design considerations and report the feedback we received from the students. We expect the task and the findings reported in this paper to be relevant for instructors teaching natural language processing (NLP) and designing course assignments.
- Abstract(参考訳): 本稿では, ダームシュタット工科大学における2023/2024年のFoLT講座において, 健康関連臨床問題に対する有害な回答を生み出すために, LLM(Large Language Models)のアウトプットを評価することを目的とした共通課題について述べる。
課題設計について考察し,学生からのフィードバックを報告する。
本論文では,自然言語処理(NLP)とデザインコースの課題について,その課題と成果について考察する。
関連論文リスト
- Polish Medical Exams: A new dataset for cross-lingual medical knowledge transfer assessment [0.865489625605814]
本研究では,ポーランドの医療ライセンシングと専門化試験に基づく新しいベンチマークデータセットを提案する。
ポーランド語と英語のパラレルコーパスのサブセットを含む24,000以上の試験質問を含んでいる。
汎用・ドメイン特化・ポーランド特化モデルを含む最先端のLCMを評価し,その性能を人間医学生と比較した。
論文 参考訳(メタデータ) (2024-11-30T19:02:34Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trials [13.59675117792588]
SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for ClinicalTrialsについて紹介する。
我々の貢献には、改良されたNLI4CT-Pデータセット(Natural Language Inference for Clinical Trials - Perturbed)が含まれる。
このタスクに登録された参加者は合計106人であり、1200以上の個人申請と25のシステム概要書に貢献している。
このイニシアチブは、医療におけるNLIモデルの堅牢性と適用性を向上し、臨床意思決定におけるより安全で信頼性の高いAIアシストを保証することを目的としている。
論文 参考訳(メタデータ) (2024-04-07T13:58:41Z) - Overview of the PromptCBLUE Shared Task in CHIP2023 [26.56584015791646]
本稿では,CHIP-2023会議におけるPromptC BLUE共有タスクの概要について述べる。
一般的な医学自然言語処理において、中国のオープンドメインや医学ドメインの大規模言語モデル(LLM)に優れたテストベッドを提供する。
本稿では,タスク,データセット,評価指標,および両タスクの上位システムについて述べる。
論文 参考訳(メタデータ) (2023-12-29T09:05:00Z) - A Zero-shot and Few-shot Study of Instruction-Finetuned Large Language Models Applied to Clinical and Biomedical Tasks [7.542019351929903]
我々は4つの言語モデル(LLM)を評価する。
英語における13のリアル・ワールド・クリニカル・バイオメディカル・自然言語処理(NLP)タスクについて
論文 参考訳(メタデータ) (2023-07-22T15:58:17Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - ITTC @ TREC 2021 Clinical Trials Track [54.141379782822206]
本課題は、患者の入院ノートの要約を構成するトピックに有効な臨床試験を適合させる問題に焦点を当てる。
NLP手法を用いて試行とトピックの表現方法を探索し、共通の検索モデルを用いて各トピックに関連するトライアルのランク付けリストを生成する。
提案されたすべての実行の結果は、すべてのトピックの中央値よりもはるかに上回っていますが、改善の余地はたくさんあります。
論文 参考訳(メタデータ) (2022-02-16T04:56:47Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。