論文の概要: Plain language adaptations of biomedical text using LLMs: Comparision of evaluation metrics
- arxiv url: http://arxiv.org/abs/2512.16530v1
- Date: Thu, 18 Dec 2025 13:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.078125
- Title: Plain language adaptations of biomedical text using LLMs: Comparision of evaluation metrics
- Title(参考訳): LLMを用いたバイオメディカルテキストのプレーン言語適応:評価指標の比較
- Authors: Primoz Kocbek, Leon Kopitar, Gregor Stiglic,
- Abstract要約: 本研究では,生物医学的テキストの簡易化と健康リテラシー向上のためのLarge Language Models(LLMs)の適用について検討した。
我々は,いくつかのアプローチ,特にプロンプトテンプレートを用いたベースラインアプローチ,2つのAIエージェントアプローチ,微調整アプローチを開発し,評価した。
- 参考スコア(独自算出の注目度): 1.4984469763984425
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study investigated the application of Large Language Models (LLMs) for simplifying biomedical texts to enhance health literacy. Using a public dataset, which included plain language adaptations of biomedical abstracts, we developed and evaluated several approaches, specifically a baseline approach using a prompt template, a two AI agent approach, and a fine-tuning approach. We selected OpenAI gpt-4o and gpt-4o mini models as baselines for further research. We evaluated our approaches with quantitative metrics, such as Flesch-Kincaid grade level, SMOG Index, SARI, and BERTScore, G-Eval, as well as with qualitative metric, more precisely 5-point Likert scales for simplicity, accuracy, completeness, brevity. Results showed a superior performance of gpt-4o-mini and an underperformance of FT approaches. G-Eval, a LLM based quantitative metric, showed promising results, ranking the approaches similarly as the qualitative metric.
- Abstract(参考訳): 本研究では,生物医学的テキストの簡易化と健康リテラシー向上を目的としたLarge Language Models(LLMs)の適用について検討した。
バイオメディカル抽象の平易な言語適応を含む公開データセットを用いて,いくつかのアプローチ,特にプロンプトテンプレートを用いたベースラインアプローチ,2つのAIエージェントアプローチ,微調整アプローチを開発し,評価した。
さらなる研究のベースラインとして,OpenAI gpt-4o と gpt-4o のミニモデルを選定した。
Flesch-Kincaid grade level, SMOG Index, SARI, and BERTScore, G-Eval, および質的測定値を用いて, 簡易性, 正確性, 完全性, 簡潔性について, より正確に5-point Likert Scalesを評価した。
その結果, gpt-4o-mini の成績は良好であり, FT アプローチの低性能を示した。
LLMに基づく定量的計量であるG-Evalは有望な結果を示し、定性的計量と類似したアプローチをランク付けした。
関連論文リスト
- When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - UM_FHS at TREC 2024 PLABA: Exploration of Fine-tuning and AI agent approach for plain language adaptations of biomedical text [3.223303935767146]
TREC 2024 PLABA トラックへの投稿は,K8 レベルの学生 (13~14歳) を対象に, バイオメディカル・抽象化の簡易化を目的としている。
我々は,OpenAIのGPt-4oとGPt-4o-miniモデルを用いて,ベースラインプロンプトエンジニアリング,2AIエージェントアプローチ,微調整という3つのアプローチを検証した。
その結果、GPt-4o-miniモデルを用いた2エージェントアプローチとベースラインプロンプトエンジニアリングは質的性能が優れ、微調整モデルは精度と完全性に優れるが、より単純ではないことがわかった。
論文 参考訳(メタデータ) (2025-02-19T23:07:16Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Comparative Analysis of Open-Source Language Models in Summarizing Medical Text Data [5.443548415516227]
大規模言語モデル(LLM)は,非構造化テキストデータに対する問合せおよび要約処理において,優れた性能を示した。
医用要約タスクにおけるオープンソースのLCMの性能分析のための評価手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T16:16:22Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Benchmarking large language models for biomedical natural language processing applications and recommendations [22.668383945059762]
大規模言語モデル(LLM)は、一般的なドメインにおいて有望であることを示している。
我々は、そのゼロショット、少数ショット、微調整性能を従来のBERTモデルやBARTモデルと比較する。
LLM出力の不足情報や幻覚といった問題を見つけます。
論文 参考訳(メタデータ) (2023-05-10T13:40:06Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。