Fugu-MT 論文翻訳(概要): Analysing zero-shot temporal relation extraction on clinical notes using temporal consistency

論文の概要: Analysing zero-shot temporal relation extraction on clinical notes using temporal consistency

arxiv url: http://arxiv.org/abs/2406.11486v1
Date: Mon, 17 Jun 2024 12:53:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 14:51:50.293754
Title: Analysing zero-shot temporal relation extraction on clinical notes using temporal consistency
Title（参考訳）: 時間的整合性を用いた臨床ノートにおけるゼロショット時間関係抽出の解析
Authors: Vasiliki Kougia, Anastasiia Sedova, Andreas Stephan, Klim Zaporojets, Benjamin Roth,
Abstract要約: 本稿では, バイオメディカルテキストに着目したゼロショットセッティングにおける時間的関係抽出のための最初の研究について述べる。我々は2種類のプロンプトと5つのLDMを用いて、2つの事象間の時間的関係について応答を得る。実験により, LLMはF1スコアの点において, 微調整された特殊モデルよりも性能が劣るゼロショット設定に苦しむことが示された。
参考スコア（独自算出の注目度）: 7.384374129700065
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents the first study for temporal relation extraction in a zero-shot setting focusing on biomedical text. We employ two types of prompts and five LLMs (GPT-3.5, Mixtral, Llama 2, Gemma, and PMC-LLaMA) to obtain responses about the temporal relations between two events. Our experiments demonstrate that LLMs struggle in the zero-shot setting performing worse than fine-tuned specialized models in terms of F1 score, showing that this is a challenging task for LLMs. We further contribute a novel comprehensive temporal analysis by calculating consistency scores for each LLM. Our findings reveal that LLMs face challenges in providing responses consistent to the temporal properties of uniqueness and transitivity. Moreover, we study the relation between the temporal consistency of an LLM and its accuracy and whether the latter can be improved by solving temporal inconsistencies. Our analysis shows that even when temporal consistency is achieved, the predictions can remain inaccurate.
Abstract（参考訳）: 本稿では, バイオメディカルテキストに着目したゼロショットセッティングにおける時間的関係抽出のための最初の研究について述べる。我々は2種類のプロンプトと5つのLDM(GPT-3.5, Mixtral, Llama 2, Gemma, PMC-LLaMA)を用いて,2つの事象間の時間的関係について応答を得る。実験の結果,LLMはF1スコアにおいて細調整された特殊モデルよりも性能が劣るゼロショット設定に苦しむことが示され,LLMにとって難しい課題であることがわかった。さらに,各LSMの整合性スコアを計算することで,新たな総合時間解析に寄与する。以上の結果から, LLMは特異性と推移性の時間的特性に整合した応答を提供する上で, 課題に直面していることが明らかとなった。さらに,LLMの時間的整合性とその精度の関係について検討し,時間的不整合を解消することで後者を改善できるかどうかを検討した。我々の分析は、仮に時間的一貫性が達成されたとしても、予測は不正確なままであることを示している。

関連論文リスト

TransientTables: Evaluating LLMs' Reasoning on Temporally Evolving Semi-structured Tables [47.85408648193376]
大規模言語モデル(LLM)は通常、静的データセットでトレーニングされ、効果的な時間的推論を行う能力を制限する。本稿では,14,000以上のテーブルから3,971の質問を抽出し,複数の期間にわたって1,238のエンティティを対象とするTransIENTTABLESデータセットを提案する。
論文参考訳（メタデータ） (2025-04-02T16:34:43Z)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [69.68265487134686]
Video SimpleQAは、LVLMの事実性評価に適した最初の総合的なベンチマークである。私たちの研究は、以下の重要な機能を通じて、既存のビデオベンチマークと区別します。答えは、簡潔なフォーマットで曖昧で決定的に正しいものとして作成されます。
論文参考訳（メタデータ） (2025-03-24T17:46:09Z)
A Study into Investigating Temporal Robustness of LLMs [19.067901534284395]
大きな言語モデル(LLM)は、驚くほど多くの実世界の知識をカプセル化します。我々は, 時間情報処理能力に基づいて, LLMが質問応答の頑健さを正確に測定することを目的としている。これらの8つのテストの選択が、モデルの時間的堅牢性を判断するために、どのように自動的に使用されるかを示す。
論文参考訳（メタデータ） (2025-03-21T11:56:17Z)
LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文参考訳（メタデータ） (2025-03-12T11:45:11Z)
ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文参考訳（メタデータ） (2025-01-06T14:27:41Z)
Can LLMs Understand Time Series Anomalies? [20.848375315326305]
大規模言語モデル (LLM) は時系列予測で人気を博しているが, 異常検出の可能性はほとんど未解明である。本研究では,ゼロショットと少数ショットのシナリオに着目し,時系列データ中の異常をLLMが理解し,検出できるかどうかを検討する。この結果から,LLMは時系列異常を理解できるが,その推論能力に基づく多くの共通予想は成り立たないことが示唆された。
論文参考訳（メタデータ） (2024-10-07T19:16:02Z)
The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文参考訳（メタデータ） (2024-10-07T02:30:18Z)
Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文参考訳（メタデータ） (2024-07-22T20:13:10Z)
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning [20.066249913943405]
大きな言語モデル(LLM)は驚くべき推論機能を示しているが、エラーの影響を受けやすい。種々のシナリオにおいて,LLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを提案する。本研究は, 時間的推論作業におけるLLMの強度と弱点について, 貴重な知見を提供するものである。
論文参考訳（メタデータ） (2024-06-13T14:31:19Z)
Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。 CoTempQAは4つの時間的シナリオを含むベンチマークである。実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文参考訳（メタデータ） (2024-06-13T12:56:21Z)
MenatQA: A New Dataset for Testing the Temporal Comprehension and Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文参考訳（メタデータ） (2023-10-08T13:19:52Z)
TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。 GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文参考訳（メタデータ） (2023-10-02T00:59:07Z)
Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-08T17:49:44Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。