論文の概要: Fine-Tuning A Large Language Model for Systematic Review Screening
- arxiv url: http://arxiv.org/abs/2603.24767v1
- Date: Wed, 25 Mar 2026 19:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.966769
- Title: Fine-Tuning A Large Language Model for Systematic Review Screening
- Title(参考訳): システムレビュースクリーニングのための大規模言語モデルの微調整
- Authors: Kweku Yamoah, Noah Schroeder, Emmanuel Dorley, Neha Rani, Caleb Schutz,
- Abstract要約: 本研究は, オープンウェイトLDM(オープンウェイトLDM)を小12億個のパラメータに微調整し, 系統的な検討を行った。
その結果,微調整モデルによる高い性能向上が得られた。
この結果から,大規模な体系的レビューにおいて,タイトルと抽象的なスクリーニングのための微調整LDMが約束されていることを示す。
- 参考スコア(独自算出の注目度): 1.7398560678845076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Systematic reviews traditionally have taken considerable amounts of human time and energy to complete, in part due to the extensive number of titles and abstracts that must be reviewed for potential inclusion. Recently, researchers have begun to explore how to use large language models (LLMs) to make this process more efficient. However, research to date has shown inconsistent results. We posit this is because prompting alone may not provide sufficient context for the model(s) to perform well. In this study, we fine-tune a small 1.2 billion parameter open-weight LLM specifically for study screening in the context of a systematic review in which humans rated more than 8500 titles and abstracts for potential inclusion. Our results showed strong performance improvements from the fine-tuned model, with the weighted F1 score improving 80.79% compared to the base model. When run on the full dataset of 8,277 studies, the fine-tuned model had 86.40% agreement with the human coder, a 91.18% true positive rate, a 86.38% true negative rate, and perfect agreement across multiple inference runs. Taken together, our results show that there is promise for fine-tuning LLMs for title and abstract screening in large-scale systematic reviews.
- Abstract(参考訳): 体系的なレビューは伝統的に完成までにかなりの時間とエネルギーを必要としてきた。
近年、研究者は大規模言語モデル(LLM)を用いてこのプロセスをより効率的にする方法を模索している。
しかし、現在までの研究では矛盾する結果が出ている。
これは、モデル(s)が正常に動作するための十分なコンテキストを提供できないことを、単体でプロンプトするからだと仮定する。
そこで本研究では,本研究では,8500タイトル以上を人間が評価し,潜在的な包括性を抽象化するシステムレビューの文脈において,オープンウェイトLDM(オープンウェイトLDM)の小さなパラメータを微調整する。
その結果,F1スコアはベースモデルと比較して80.79%向上した。
8,277の研究では、微調整されたモデルは、人間のコーダーとの86.40%の一致、91.18%の正の正の率、86.38%の正の負の率、そして複数の推論の完全な一致があった。
この結果から,大規模な体系的レビューにおいて,タイトルと抽象的なスクリーニングのための微調整LDMが約束されていることを示す。
関連論文リスト
- A suite of LMs comprehend puzzle statements as well as humans [13.386647125288516]
本研究では,ヒトの反応を2つの条件で比較した事前登録研究を報告した。
リリーディングが制限されると、人間の精度は大幅に低下し、Falcon-180B-ChatやGPT-4よりも低下した。
結果は、モデル固有の欠陥よりも、実用的感受性の共有を示唆している。
論文 参考訳(メタデータ) (2025-05-13T22:18:51Z) - LLM-based MOFs Synthesis Condition Extraction using Few-Shot Demonstrations [31.35595673239483]
大規模言語モデル(LLM)は、この長年の問題に対する破壊的な新しい解決策を提供する。
本稿では,LLMの文脈内学習パラダイムについて紹介する。
提案した少数ショットLLMの合成,構造推定,材料設計性能は,いずれもゼロショットLLMとベースライン法を大きく上回っている。
論文 参考訳(メタデータ) (2024-08-06T14:53:25Z) - Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。
本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-26T03:56:21Z) - Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
論文 参考訳(メタデータ) (2024-05-23T11:24:23Z) - Let's Verify Step by Step [73.58107073356732]
プロセスの監督は,課題を解決するためのトレーニングモデルにおいて,結果の監督を著しく上回っていることを示す。
我々のモデルは、MATHテストセットの代表部分集合から78%の問題を解く。
また、最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kをリリースしています。
論文 参考訳(メタデータ) (2023-05-31T17:24:00Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。