論文の概要: Coding historical causes of death data with Large Language Models
- arxiv url: http://arxiv.org/abs/2405.07560v1
- Date: Mon, 13 May 2024 08:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:24:56.626253
- Title: Coding historical causes of death data with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた死亡データの歴史的原因の符号化
- Authors: Bjørn Pedersen, Maisha Islam, Doris Tove Kristoffersen, Lars Ailo Bongo, Eilidh Garrett, Alice Reid, Hilde Sommerseth,
- Abstract要約: 本稿では,事前学習した生成型大規模言語モデル(LLM)を用いて,過去の死因に対するICD-10符号の割り当てを自動化する可能性について検討する。
GPT-3.5, GPT-4, および Llama 2 LLM を用いて, HiCaD データセット上で ICD-10 の符号を正確に割り当てる能力を評価する。
以上より, GPT-3.5, GPT-4, Llama 2はそれぞれ69%, 83%, 40%の正解率を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper investigates the feasibility of using pre-trained generative Large Language Models (LLMs) to automate the assignment of ICD-10 codes to historical causes of death. Due to the complex narratives often found in historical causes of death, this task has traditionally been manually performed by coding experts. We evaluate the ability of GPT-3.5, GPT-4, and Llama 2 LLMs to accurately assign ICD-10 codes on the HiCaD dataset that contains causes of death recorded in the civil death register entries of 19,361 individuals from Ipswich, Kilmarnock, and the Isle of Skye from the UK between 1861-1901. Our findings show that GPT-3.5, GPT-4, and Llama 2 assign the correct code for 69%, 83%, and 40% of causes, respectively. However, we achieve a maximum accuracy of 89% by standard machine learning techniques. All LLMs performed better for causes of death that contained terms still in use today, compared to archaic terms. Also they perform better for short causes (1-2 words) compared to longer causes. LLMs therefore do not currently perform well enough for historical ICD-10 code assignment tasks. We suggest further fine-tuning or alternative frameworks to achieve adequate performance.
- Abstract(参考訳): 本稿では,事前学習した生成型大規模言語モデル(LLM)を用いて,過去の死因に対するICD-10符号の割り当てを自動化する可能性について検討する。
歴史的死因でしばしば見られる複雑な物語のため、この作業は伝統的にコーディングの専門家によって手作業で行われてきた。
Ipswich, Kilmarnock, the Isle of Skye from the UK-1901, Ipswich, Kilmarnock, and the Isle of Skye from the UK。
以上より, GPT-3.5, GPT-4, Llama 2はそれぞれ69%, 83%, 40%の正解率を示した。
しかし,標準的な機械学習技術により,最大89%の精度が得られる。
全てのLSMは、現在使われている用語を含む死の原因に対して、古来の用語よりも優れた性能を発揮した。
また、短い原因(1-2語)に対して、長い原因よりも優れている。
したがって、LLMは歴史的ICD-10のコード割り当てタスクでは十分に機能しない。
適切なパフォーマンスを達成するために、さらに微調整や代替のフレームワークを提案する。
関連論文リスト
- A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why? [9.246899995643918]
大規模な言語モデルは、仕様から逸脱する欠陥コードを生成することができる。
広範囲な手動分析により, ノンシンタクティックな誤りの7つのカテゴリーが同定された。
評価の結果,LPMの誤りの原因を特定すると,ReActプロンプト技術を用いたGPT-4が最大0.65のF1スコアを達成できることがわかった。
論文 参考訳(メタデータ) (2024-11-03T02:47:03Z) - Fixing Code Generation Errors for Large Language Models [6.137340149146578]
LLM(Large Language Models)は、ソフトウェア開発のためのソースコードを自動生成するように設計されている。
LLMの生成したコードは、しばしばテストケースをパスせず、エラーを修正するためにかなりの人的努力を必要とする。
LlmFixと呼ばれる3種類のエラーを3段階のプロセスで処理する手法を提案する。
論文 参考訳(メタデータ) (2024-09-01T09:40:15Z) - Hotfixing Large Language Models for Code [8.243596444097506]
コードのための大規模言語モデル(LLM4Code)は、コード補完や生成といったタスクを補助し、開発者の不可欠な部分となっている。
これらのモデルは、バグの多いコードを生成するなど、リリース後に望ましくない振る舞いを示す。
本稿では,LLM4Codeをホットフィックスすることで,バグの少ないコードとより固定的なコードを生成することに焦点を当てる。
論文 参考訳(メタデータ) (2024-08-11T08:34:43Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - A Systematic Investigation of Distilling Large Language Models into Cross-Encoders for Passage Re-ranking [79.35822270532948]
大規模言語モデル (LLM) から蒸留したクロスエンコーダは、手動でラベル付けされたデータに微調整されたクロスエンコーダよりも効果的であることが多い。
我々は新しい蒸留データセットである Rank-DistiLLM を構築し,リリースする。
論文 参考訳(メタデータ) (2024-05-13T16:51:53Z) - Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Public Health Informatics: Proposing Causal Sequence of Death Using
Neural Machine Translation [9.209465540760684]
不正確な死亡報告は公衆衛生政策の過ちにつながる可能性がある。
我々は、死に至る臨床症状の慢性的な順序を決定するための高度なAIアプローチを提案する。
我々は死の因果関係を提唱する上での3つの課題を特定する。
論文 参考訳(メタデータ) (2020-09-22T04:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。