論文の概要: Evaluation of LLMs in Medical Text Summarization: The Role of Vocabulary Adaptation in High OOV Settings
- arxiv url: http://arxiv.org/abs/2505.21242v1
- Date: Tue, 27 May 2025 14:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.718015
- Title: Evaluation of LLMs in Medical Text Summarization: The Role of Vocabulary Adaptation in High OOV Settings
- Title(参考訳): 医用テキスト要約におけるLLMの評価:高OOV設定における語彙適応の役割
- Authors: Gunjan Balde, Soumyadeep Roy, Mainack Mondal, Niloy Ganguly,
- Abstract要約: 近年,Large Language Models (LLMs) は,テキスト内学習を単純に利用することで,医学的テキスト要約において大きな成功を収めている。
その結果,LLMは語彙外単語の濃度が高い点や,新規性が高い点では顕著な性能低下を示した。
語彙適応は、この語彙ミスマッチ問題に対する直感的な解決法である。
- 参考スコア(独自算出の注目度): 26.442558912559658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) recently achieved great success in medical text summarization by simply using in-context learning. However, these recent efforts do not perform fine-grained evaluations under difficult settings where LLMs might fail. They typically report performance scores over the entire dataset. Through our benchmarking study, we show that LLMs show a significant performance drop for data points with high concentration of out-of-vocabulary (OOV) words or with high novelty. Vocabulary adaptation is an intuitive solution to this vocabulary mismatch issue where the LLM vocabulary gets updated with certain expert domain (here, medical) words or subwords. An interesting finding from our study is that Llama-3.1, even with a vocabulary size of around 128K tokens, still faces over-fragmentation issue with medical words. To that end, we show vocabulary adaptation helps improve the LLM summarization performance even in difficult settings. Through extensive experimentation of multiple vocabulary adaptation strategies, two continual pretraining strategies, and three benchmark medical summarization datasets, we gain valuable insights into the role of vocabulary adaptation strategies for customizing LLMs to the medical domain. We also performed a human evaluation study with medical experts where they found that vocabulary adaptation results in more relevant and faithful summaries. Our codebase is made publicly available at https://github.com/gb-kgp/LLM-MedicalSummarization-Benchmark.
- Abstract(参考訳): 近年,Large Language Models (LLMs) は,テキスト内学習を単純に利用することで,医学的テキスト要約において大きな成功を収めている。
しかし、近年の取り組みは、LSMが失敗する可能性のある困難な状況下では、きめ細かい評価を行なわない。
通常、データセット全体のパフォーマンススコアを報告します。
ベンチマークの結果,OLMは語彙外単語(OOV)の集中度が高い,あるいは新規性が高いデータポイントに対して顕著な性能低下を示すことがわかった。
語彙適応(英: Vocabulary adapt)は、この語彙ミスマッチ問題に対する直感的な解決法であり、LLM語彙は特定の専門家ドメイン(以下、医学)の単語やサブワードで更新される。
我々の研究で興味深い発見は、Llama-3.1が約128Kトークンの語彙サイズであるにもかかわらず、医療用語の過剰な断片化の問題に直面していることである。
この結果から,語彙適応は難易度においてもLLM要約性能の向上に役立つことが示された。
複数の語彙適応戦略,2つの連続的事前訓練戦略,および3つのベンチマーク医学要約データセットの広範な実験を通じて,LSMを医療領域にカスタマイズするための語彙適応戦略の役割について貴重な知見を得た。
また, 専門医との人間評価調査を行い, 語彙適応がより関連性が高く, 忠実な要約をもたらすことがわかった。
私たちのコードベースはhttps://github.com/gb-kgp/LLM-MedicalSummarization-Benchmarkで公開されています。
関連論文リスト
- How Can We Effectively Expand the Vocabulary of LLMs with 0.01GB of Target Language Text? [38.1823640848362]
大きな言語モデル(LLM)は、英語以外の多くの言語で顕著な能力を示している。
LLMは、英語中心のトークン化や語彙に依存するため、非英語のテキストを生成する際にさらに推論ステップを必要とする。
ターゲット言語トークンによる語彙拡張は、この問題を改善するために広く使われている言語間語彙適応手法である。
論文 参考訳(メタデータ) (2024-06-17T12:42:34Z) - MEDVOC: Vocabulary Adaptation for Fine-tuning Pre-trained Language Models on Medical Text Summarization [26.442558912559658]
本研究は,学習前言語モデル(PLM)を微調整するための動的語彙適応戦略であるMEDVOCを提案する。
要約における既存の領域適応アプローチとは対照的に、MEDVOCは語彙を最適化可能なパラメータとして扱う。
MEDVOCはより忠実な医療サマリーを生成する。
論文 参考訳(メタデータ) (2024-05-07T10:00:00Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - CohortGPT: An Enhanced GPT for Participant Recruitment in Clinical Study [17.96401880059829]
ChatGPTのような大規模言語モデル(LLM)は、様々な下流タスクで大きな成功を収めています。
我々は,知識グラフを補助情報として,予測を行う際のLCMを導くことを提案する。
本手法は, 微調整手法と比較して, 良好な性能が得られる。
論文 参考訳(メタデータ) (2023-07-21T04:43:00Z) - An Automated Method to Enrich Consumer Health Vocabularies Using GloVe
Word Embeddings and An Auxiliary Lexical Resource [0.0]
平民は、ドメインに共通する専門用語を理解できないため、専門家とのコミュニケーションが困難になる可能性がある。
いくつかの専門用語は、平凡な医学用語を専門的な医学用語にマッピングするために作られており、その逆も同様である。
本稿では,どのドメインの語彙にも適用可能な,平民の語彙を豊かにするための自動手法を提案する。
論文 参考訳(メタデータ) (2021-05-18T20:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。