論文の概要: BioCoref: Benchmarking Biomedical Coreference Resolution with LLMs
- arxiv url: http://arxiv.org/abs/2510.25087v1
- Date: Wed, 29 Oct 2025 01:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.905137
- Title: BioCoref: Benchmarking Biomedical Coreference Resolution with LLMs
- Title(参考訳): BioCoref: LLMによるバイオメディカル・コアレゾリューションのベンチマーク
- Authors: Nourah M Salem, Elizabeth White, Michael Bada, Lawrence Hunter,
- Abstract要約: バイオメディカルテキストにおけるコア参照解決のための生成型大規模言語モデル (LLM) の総合評価について述べる。
我々は,これらの手法をSpanBERTという差別的スパンベースのエンコーダと比較し,生成的手法と識別的手法の有効性を比較した。
特に、LLaMA 8Bと17Bモデルは、エンティティ拡張プロンプトの下での精度とF1スコアが優れている。
- 参考スコア(独自算出の注目度): 2.770730728142587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coreference resolution in biomedical texts presents unique challenges due to complex domain-specific terminology, high ambiguity in mention forms, and long-distance dependencies between coreferring expressions. In this work, we present a comprehensive evaluation of generative large language models (LLMs) for coreference resolution in the biomedical domain. Using the CRAFT corpus as our benchmark, we assess the LLMs' performance with four prompting experiments that vary in their use of local, contextual enrichment, and domain-specific cues such as abbreviations and entity dictionaries. We benchmark these approaches against a discriminative span-based encoder, SpanBERT, to compare the efficacy of generative versus discriminative methods. Our results demonstrate that while LLMs exhibit strong surface-level coreference capabilities, especially when supplemented with domain-grounding prompts, their performance remains sensitive to long-range context and mentions ambiguity. Notably, the LLaMA 8B and 17B models show superior precision and F1 scores under entity-augmented prompting, highlighting the potential of lightweight prompt engineering for enhancing LLM utility in biomedical NLP tasks.
- Abstract(参考訳): バイオメディカルテキストにおける参照解決は、複雑なドメイン固有の用語、参照形式における曖昧さの高さ、コアフェリング式間の長距離依存性による固有の課題を示す。
本研究では,生物医学領域におけるコア参照解決のための生成的大規模言語モデル (LLM) の包括的評価について述べる。
我々は, CRAFTコーパスをベンチマークとして, 局所的, 文脈的エンリッチメント, 省略やエンティティ辞書などのドメイン固有の手がかりの4つの実験を行い, LLMの性能評価を行った。
我々は,これらの手法をSpanBERTという差別的スパンベースのエンコーダと比較し,生成的手法と識別的手法の有効性を比較した。
以上の結果から,LLMは特にドメイン・グラウンド・プロンプトを補足した場合に強い面レベルのコア参照能力を示すが,その性能は長距離コンテキストに敏感であり,あいまいさに言及している。
特に、LLaMA 8B と 17B モデルでは、エンティティ拡張プロンプトの下での精度と F1 スコアが優れており、バイオメディカル NLP タスクにおける LLM の有用性を高めるための軽量なプロンプトエンジニアリングの可能性を強調している。
関連論文リスト
- Applications of Small Language Models in Medical Imaging Classification with a Focus on Prompt Strategies [9.1953139634128]
本研究では,医療画像分類作業における小言語モデル(SLM)の性能について検討する。
NIH Chest X-ray データセットを用いて胸部X線位置を分類する作業において,複数のSLMを評価した。
以上の結果から,一部のSLMは良好なプロンプトで競合精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-08-18T21:48:45Z) - Specialised or Generic? Tokenization Choices for Radiology Language Models [2.081299660192454]
言語モデル(LM)が使用する語彙は、テキスト生成の品質において重要な役割を果たす。
放射線診断のタスクにおける一般,医療,ドメイン特異的なトークン化剤は,3つの画像モダリティにまたがって要約を報告する。
以上の結果から, 医学的, 専門的な語彙は, モデルがゼロから訓練されたとき, 広く使われている自然言語の代替語よりも優れていた。
論文 参考訳(メタデータ) (2025-08-13T17:13:56Z) - Disambiguation in Conversational Question Answering in the Era of LLMs and Agents: A Survey [54.90240495777929]
自然言語処理(NLP)におけるあいまいさは依然として根本的な課題である
LLM(Large Language Models)の出現により、あいまいさに対処することがさらに重要になった。
本稿では,言語駆動システムにおけるあいまいさの定義,形態,含意について考察する。
論文 参考訳(メタデータ) (2025-05-18T20:53:41Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。
LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。
我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-12-22T13:14:38Z) - Inspire the Large Language Model by External Knowledge on BioMedical
Named Entity Recognition [3.427366431933441]
大規模言語モデル(LLM)は多くのNLPタスク、特に生成タスクにおいて支配的な性能を示す。
LLMを利用して、バイオメディカルNERタスクをエンティティスパン抽出とエンティティタイプ決定に分解する。
実験の結果,2段階のBioNERアプローチでは,以前の数発のLDMベースラインと比較して有意な改善が見られた。
論文 参考訳(メタデータ) (2023-09-21T17:39:53Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Detecting Idiomatic Multiword Expressions in Clinical Terminology using
Definition-Based Representation Learning [12.30055843580139]
バイオメディカルなMWEの慣用性を評価するための有効なツールを開発し,それらのMWEの意味表現とそれらの構成成分の表現の重み付け平均との類似度に基づいて評価する。
以上の結果から,BioLORDモデルは他のモデルでは再現されず,慣用的なMWEを識別する能力が強いことが示唆された。
論文 参考訳(メタデータ) (2023-05-11T13:42:58Z) - Benchmarking large language models for biomedical natural language processing applications and recommendations [22.668383945059762]
大規模言語モデル(LLM)は、一般的なドメインにおいて有望であることを示している。
我々は、そのゼロショット、少数ショット、微調整性能を従来のBERTモデルやBARTモデルと比較する。
LLM出力の不足情報や幻覚といった問題を見つけます。
論文 参考訳(メタデータ) (2023-05-10T13:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。