論文の概要: Analysing zero-shot temporal relation extraction on clinical notes using temporal consistency
- arxiv url: http://arxiv.org/abs/2406.11486v1
- Date: Mon, 17 Jun 2024 12:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:51:50.293754
- Title: Analysing zero-shot temporal relation extraction on clinical notes using temporal consistency
- Title(参考訳): 時間的整合性を用いた臨床ノートにおけるゼロショット時間関係抽出の解析
- Authors: Vasiliki Kougia, Anastasiia Sedova, Andreas Stephan, Klim Zaporojets, Benjamin Roth,
- Abstract要約: 本稿では, バイオメディカルテキストに着目したゼロショットセッティングにおける時間的関係抽出のための最初の研究について述べる。
我々は2種類のプロンプトと5つのLDMを用いて、2つの事象間の時間的関係について応答を得る。
実験により, LLMはF1スコアの点において, 微調整された特殊モデルよりも性能が劣るゼロショット設定に苦しむことが示された。
- 参考スコア(独自算出の注目度): 7.384374129700065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the first study for temporal relation extraction in a zero-shot setting focusing on biomedical text. We employ two types of prompts and five LLMs (GPT-3.5, Mixtral, Llama 2, Gemma, and PMC-LLaMA) to obtain responses about the temporal relations between two events. Our experiments demonstrate that LLMs struggle in the zero-shot setting performing worse than fine-tuned specialized models in terms of F1 score, showing that this is a challenging task for LLMs. We further contribute a novel comprehensive temporal analysis by calculating consistency scores for each LLM. Our findings reveal that LLMs face challenges in providing responses consistent to the temporal properties of uniqueness and transitivity. Moreover, we study the relation between the temporal consistency of an LLM and its accuracy and whether the latter can be improved by solving temporal inconsistencies. Our analysis shows that even when temporal consistency is achieved, the predictions can remain inaccurate.
- Abstract(参考訳): 本稿では, バイオメディカルテキストに着目したゼロショットセッティングにおける時間的関係抽出のための最初の研究について述べる。
我々は2種類のプロンプトと5つのLDM(GPT-3.5, Mixtral, Llama 2, Gemma, PMC-LLaMA)を用いて,2つの事象間の時間的関係について応答を得る。
実験の結果,LLMはF1スコアにおいて細調整された特殊モデルよりも性能が劣るゼロショット設定に苦しむことが示され,LLMにとって難しい課題であることがわかった。
さらに,各LSMの整合性スコアを計算することで,新たな総合時間解析に寄与する。
以上の結果から, LLMは特異性と推移性の時間的特性に整合した応答を提供する上で, 課題に直面していることが明らかとなった。
さらに,LLMの時間的整合性とその精度の関係について検討し,時間的不整合を解消することで後者を改善できるかどうかを検討した。
我々の分析は、仮に時間的一貫性が達成されたとしても、予測は不正確なままであることを示している。
関連論文リスト
- ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。
このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。
全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文 参考訳(メタデータ) (2025-01-06T14:27:41Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - Can LLMs Understand Time Series Anomalies? [20.848375315326305]
大規模言語モデル (LLM) は時系列予測で人気を博しているが, 異常検出の可能性はほとんど未解明である。
本研究では,ゼロショットと少数ショットのシナリオに着目し,時系列データ中の異常をLLMが理解し,検出できるかどうかを検討する。
この結果から,LLMは時系列異常を理解できるが,その推論能力に基づく多くの共通予想は成り立たないことが示唆された。
論文 参考訳(メタデータ) (2024-10-07T19:16:02Z) - The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。
本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文 参考訳(メタデータ) (2024-10-07T02:30:18Z) - Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。
調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。
我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文 参考訳(メタデータ) (2024-07-22T20:13:10Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。